|
|

L'OCR étend sa zone de reconnaissance
Xavier Biseul
[ IMAGERIE ]
L'OCR étend sa zone de reconnaissance
Banalisées, les technologies de reconnaissance de caractères montent en gamme pour flirter avec la gestion de documents et la mobilité. Tour d'horizon des innovations récentes et à venir.
Xavier Biseul
, 01 Informatique (n° 1954),
le 16/07/2008 à 07h00
OCR pour Optical Character Recognition. Trois lettres devenues tellement communes qu'on les a presque oubliées. Le particulier trouve actuellement des logiciels de reconnaissance de caractères en open source, quand ils ne sont pas
livrés d'office, en licence OEM, avec un scanner ou un multifonction. En entreprise, la nouvelle génération de copieurs apporte directement les fichiers
« OCRisés »
sur le poste de travail via le réseau
local. Quant à la performance, les marges de progrès sont limitées. Le taux de reconnaissance des caractères dactylographiés ou manuscrits bâtons (sans empattement) approche la perfection sur les documents structurés tels que les formulaires et les
bons de commande.
Les recherches se portent donc sur la reconnaissance d'écritures tels l'arabe ou le farsi, ou sur la réduction du bruit (parasitage) sur certains documents - caractères mal formés, fond jaunâtre, feuille pelure d'oignon...
Marché de niche, la reconnaissance de l'écriture cursive progresse lentement et n'accapare l'attention que de spécialistes tels les Français A2iA ou Itesoft
(lire p. 34 à 37 du n° 1914 de
01
Informatique
)
. Pour résister à la banalisation de l'OCR, les éditeurs généralistes - se comptant sur les doigts de la main - tentent, surtout, de monter dans les couches hautes de la gestion de contenu, en
s'attelant à l'archivage ou au cycle de vie du document.
La prise en charge de nouveaux formats
Directement intégrées dans la suite Office 2007, les dernières solutions de numérisation assurent la conversion sous les nouveaux formats bureautiques de Microsoft (docx, xlsx et pptx). Elles prennent aussi en charge XPS (XML Paper
Specification), le concurrent de PDF promu par l'éditeur de Redmond. Le standard le plus en vue reste toutefois le PDF/A. Répondant à la norme ISO 19005, ce PDF Archive construit sur la version 1.4 du PDF présente suffisamment d'atouts pour en faire
un chouchou des éditeurs.
« Au-delà de la conformité aux contraintes réglementaires, le PDF/A offre une recherche plein texte mais aussi une représentation structurée du document par signets, index et table des
matières »
, estime Urban Zoltan, directeur du développement technologique chez Nuance. Le PDF/A offre également une compression efficace des couleurs. Sur ce terrain de la compression, les éditeurs s'en donnent à coeur
joie. Nuance utilise la technologie PDF MRC (Mixed Raster Content) qui peut réduire jusqu'à huit fois la taille d'un document PDF tout en respectant le standard de format de fichiers propre à Adobe. Dévolue aux documents comportant des fonds ou des
images en niveaux de gris ou en couleur, cette technologie vise à obtenir le meilleur compromis entre qualité des images et taille des fichiers générés.
De son côté, Iris a lancé, il y a un an, sa propre technologie de compression baptisée iHQC (Intelligent High Quality Compression). En proposant des fichiers couleur indexables, PDF ou XPS, dont
« la taille est
inférieure à celle des images compressées en noir et blanc »
, l'éditeur belge vise à démocratiser l'archivage couleur.
« Beaucoup d'entreprises freinent la numérisation couleur en raison des coûts de
stockage
, observe Jean-Pierre Ksenicz, chef de projet R&D chez Iris.
Pourtant, dans certaines activités, le document doit être identique à l'original pour sa conservation légale. La couleur véhicule aussi des informations
importantes comme un cachet rouge ou une signature. Enfin, cela permet de récupérer les couleurs aveugles du fond du document comme l'orange ou le rouge. »
L'iHQC, qui a fait l'objet d'un dépôt de marque, décompose les
différentes couches d'un document en distinguant le texte du fond pour le recomposer ensuite.
« On compresse séparément le texte, fortement, et l'image, faiblement. »
Bientôt la numérisation depuis un mobile
L'enregistrement d'un document OCrisé offre, en aval, une exploitation du texte et, notamment, une recherche par mots-clés. Les nouveaux logiciels vont plus loin. Avec PDF Converter Professionnal 5 de Nuance, ou Powerscan d'Iris, par
exemple, il est possible de transformer un formulaire papier en formulaire PDF actif
« prêt à l'emploi »
. Une fois le document numérisé, le moteur OCR en extrait les champs de saisie ou les cases à
cocher. Aide à la révision, PDF Converter Professionnal 5 détecte de façon visuelle (par annotation, surlignage...) les différences entre deux versions d'un document. Il peut également assurer la confidentialité des données en occultant des
parties de texte - comme le nom de la société, la prévision du chiffre d'affaires... - en fonction du profil utilisateur et des règles à appliquer. Une protection qui revêt son importance pour les documents légaux ou
confidentiels.
Un téléphone mobile muni d'une fonction appareil photo de bonne facture - au moins un million de pixels de résolution -, peut désormais faire office de scanner. Dans un proche avenir, il sera possible d'envoyer l'image
capturée en Jpeg à un serveur distant où sera déportée l'application d'OCR. Le fichier sera renvoyé quelques dizaines de secondes après par SMS ou courriel sous la forme d'un fichier texte ou de document PDF. Couplée à des fonctions de
géolocalisation ou de traduction automatique, cette numérisation nomade présente de belles perspectives.
« A l'étranger, vous pourrez photographier un panneau routier ou faire traduire un menu dans un
restaurant »
, se réjouit Robert Weideman, vice-président marketing Emea de Nuance.
Jean-Pierre Ksenicz prédit, lui, l'OCR embarqué quand les terminaux mobiles disposeront de suffisamment de puissance de calcul pour un traitement local. Abbyy a, d'ores et déjà, développé une application spécifique pour la gamme
Nseries de Nokia.
« Elle permet de lire des cartes de visite et d'exporter les données dans le carnet d'adresses du téléphone »
, explique Jupp Stoepetie, directeur Europe de l'éditeur russe.
En attendant que ce type de fonction se généralise, Omnipage 16, de Nuance, ou Finereader 9, d'Abbyy, assurent la prise en charge de documents capturés par des appareils photos numériques. ScanR propose, de son côté, un service
comparable depuis son site internet pour archiver des cartes de visite, des documents dactylographiés ou des mémos manuscrits. A la différence d'une numérisation à plat d'un document papier, la capture de la photographie est en trois dimensions.
Elle exige un certain nombre de redressements de lignes et de corrections d'angles afin d'éliminer les distorsions de l'image. Pas de grand angle non plus, si bien qu'il est difficile d'embrasser l'intégralité d'un grand article de journal par
exemple :
« Vous devrez prendre plusieurs photos et, ensuite, le système reconstituera l'ensemble »
, explique Robert Weideman.
On assiste enfin à une convergence entre l'OCR et les technologies de reconnaissance et de synthèse vocales. En couplant les deux, un texte numérisé peut être
« lu »
et sauvegardé en
fichier .wav ou .mp3. Cela peut rendre service à des travailleurs nomades, mais aussi aux aveugles ou malvoyants.
La convergence de la voix et du texte
La structuration bien particulière des documents PDF rend toutefois cette conversion plus difficile. Un écueil qu'a réussi à surmonter Plustek avec son Bookreader
(lire ci-dessus)
. Il
« lit »
à voix haute les textes numérisés ou les fichiers reçus, PDF compris. Editeur de Dragon Naturallyspeaking, Nuance travaille aussi sur l'indexation et la recherche des documents audio-vidéo.
Au-delà des caractéristiques
« date, auteur, sujet »
, il s'agirait, après reconnaissance vocale, de générer un fichier de type Word ou PDF qui reprendrait le contenu des enregistrements sous forme de
minutes horodatées.
« Nous rencontrons les mêmes difficultés qu'avec le document papier il y a quelques années »
, note Robert Weideman. Une diversification d'activités qui offre de belles
perspectives.
De nouvelles applications rendues possibles
Le mobile devient scanner
1 - Acquisition :
un téléphone mobile muni d'une fonction appareil photo de bonne résolution - au moins un million de pixels - capture le document.
2 - Traitement :
l'image est envoyée vers un serveur distant où est déportée l'application d'OCR. Le moteur effectue un certain nombre de redressements de lignes et de corrections d'angles pour éliminer les
distorsions de l'image.
3 - Restitution :
le fichier est renvoyé quelques dizaines de secondes après par SMS ou courriel sous forme de fichier texte ou de document PDF.
Une gestion de documents facilitée
1 - Mode révision :
un moteur d'OCR permet de détecter les différences entre deux versions d'un document et de les indiquer de façon visuelle (surlignage, raturage...).
2 - Mode protection :
il peut également assurer la confidentialité des données en éliminant des informations sensibles (noms et chiffres particuliers). Ces tâches sont définies selon des règles à appliquer
notamment en fonction du profil utilisateur.
Des scanners qui innovent
La GED et l'archivage à la portée des indépendants et des TPE
Sur le Xambox de Xamance, les documents (tout format) scannés sont placés séquentiellement dans un bac, séparés éventuellement par des intercalaires. Intégrant des outils d'OCR (dont Abbyy Reader 8.0) et d'indexation, le Xambox
identifie les documents, répertorie les données et les sauvegarde en local ou en réseau. Une recherche par mots-clés renvoie les documents numérisés ainsi que la position physique de l'archive papier.
Un scanner qui « lit » à haute voix
Le Bookreader de Plustek combine les fonctions d'un scanner, adapté aux livres brochés, à celles d'un logiciel de reconnaissance optique de caractères et d'un logiciel de synthèse vocale. Il suffit de placer le document à plat
pour que l'appareil
« lise »
le texte. Les documents sont sauvegardés sous forme texte ou sonore (.wav ou .mp3). Destinée aux malvoyants, cette solution permet aussi de se faire épeler un mot, de
réécouter une phrase ou de se faire lire un PDF.
|
|

|