Archives du mot-clé dématérialisation

Automatisation de lecture des formulaires de cases à cocher

Nous venons de développer un outil de lecture automatique de cases à cocher.

Après un état de l’art sur le sujet, on s’aperçoit que ce sujet n’est plus d’actualité, plus de recherches scientifiques depuis de nombreuses années, grave erreur 😉

Il est vrai que le formulaire électronique est en vogue, mais il y encore des contextes où l’usage de celui-ci, n’est pas possible.

En tant que prestataire de service en dématérialisation, nous avons la chance d’avoir de la volumétrie.

Voici quelques exemples de cases cocher :

exemple de cases à  cocher

exemple de cases à cocher

à priori on ne voit pas la difficulté pour détecter que la case est cochée ou non. En analysant simplement le nombre de pixels noir au centre des cases on détecte facilement si la case est cochée ou non.

Voici quelques exemples où l’on commence à comprendre les difficultés que l’on rencontre :

coche entre deux cases

coche entre deux cases

Certains de nos clients nous demande de prendre en compte ce type de coche, en prenant l’option la plus négative, ici « Peu Satisfait », pour la deuxième question.

coche verticale

coche verticale au lieu d’une croix

Un dernier exemple, mais il y en a des dizaines d’autres, pour lequel la règle d’analyse citée ci-dessus ne fonctionne pas :

cases entourées

la personne au lieu de cocher les cases a entouré celles-ci

Une fois de plus, un sujet qui semble simple, cache de l’intérêt pour la recherche et pour un prestataire externe.

Une petite dernière…

Dernière case ...

Une ambiguïté de compréhension possible

PS : pensez aux personnes qui font des ratures …

 

Le PDF/A-1 -2 – 3 -x

La norme ISO PDF/A

L’objet de cet article n’est pas de décrire le format PDF/A, avec ces avantages et ces inconvénients, voir pour cela :

  1. http://fr.wikipedia.org/wiki/PDF/A-1
  2. http://www.pdfa.org/2009/09/pdfa-une-nouvelle-norme-pour-larchivage-a-long-terme/?lang=fr

L’objet de cet article est de faire un retour sur son usage, afin de répondre aux questions suivantes :

  1. Tous les logiciels qui indiquent faire de PDF/A suivent t’ils la norme ?
  2. Peut-on faire du PDF Optimisé avec du PDF/A
  3. Relation signature électronique et PDF/A
  4. Taille des fichiers PDF/A
  5. Modification d’un PDF/A
  6. Tous les PDF peuvent ils devenir des fichier PDF/A

Tous les logiciels qui indiquent faire de PDF/A suivent t’ils la norme ?

NON. C’est terrible, mais des logiciels permettent de valider les fichiers PDF/A et surprise de nombreux PDF dit PDF/A ne suivent pas la norme. ;-(

Peut-on faire du PDF Optimisé avec du PDF/A

OUI et NON. La norme PDF/A-1 trop ancienne n’autorise pas les PDF Optimisés. A partir de la La norme PDF/A-2, on peut intégrer des formats d’images optimisées pour les images couleurs et niveaux de gris. On peut aussi compresser sans perte d’information les images N&B, gain environ 50% par rapport aux images tiff group IV. 😉

Relation signature électronique et PDF/A

OUI. On peut signer un fichier PDF au format PDF/A sans que celui-ci perde son statu PDF/A

Les fichiers PDF/A sont plus gros

OUI. car on cherche à tout embarquer, notamment les polices de caractères. La taille des fichiers PDF/A est donc plus importante que les fichiers PDF normaux.

Modification d’un PDF/A

NON. La modification d’un fichier PDF suivant la norme PDF/A, perd son statu PDF/A, il faut alors relancer la conversion en PDF/A

Tous les fichiers PDF peuvent-ils passer en PDF/A ?

NON. Si le fichier a mal été crée au départ, par exemple création à partir d’un logiciel, comme Word de Microsoft, et le document d’origine comporte des polices de caractères spécifiques installés sur le poste. Dans ce cas, au moment de la demande de passage en PDF/A sur un autre poste de ce PDF, le système va chercher les polices de caractères, ne les trouvant pas il refusera la conversion.

Voilà une petite liste de questions/réponses sur le PDF/A

 

 

SDNRI 19-21 mars 2014 (CIFED+CORIA), mon résumé

Semaine du Document Numérique et de la Recherche d’Information 2014 (SDNRI)

Présent à cette conférence qui regroupe deux mondes de la recherche : la recherche d’informations (CORIA) et l’analyse d’image de document (CIFED), je vous propose mon résumé en tant qu’industriel, plus orienté CIFED, il fallait faire des choix ;-).

L’objet de ces colloques est la présentation de ce qui se fait actuellement dans les laboratoires, pour l’analyse de document : factures, documents techniques, courrier entrant, etc.. On n’est donc pas sur la vidéo, la 3D, la réalité virtuelle.. c’est vraiment la partie dématérialisation et indexation des documents.

95% de chercheurs et 5% d’industriels (3 sociétés de mémoire… mais on était plutôt silencieux).

Les recherches actuelles portent sur :

  • Reconnaissance manuscrite, avec notamment l’intervention d’ Alex Graves, par une technique Biderictionnal RNNs
  • Améliorer la classification de documents par combinaison de descripteurs visuels et textuels (Fait par mon collègue Olivier AUGEREAU)
  • La différenciation texte manuscrit et texte typographié, afin notamment d’appliquer un OCR ou ICR en fonction de ce qui a été trouvé
  • La détection d’une première page de document dans un flux documentaire
  • La recherche de formule chimique dans un document
  • Classification de document par l’analyse de logo.
  • Classification mono-classe de document industriel
  • Génération de données semi-synthétiques pour l’amélioration des techniques d’apprentissage.
  • Analyse de document par smartphone
  • Analyse de la couleur sur des formulaires

Les recherches en cours sont biens dans les problématiques industrielles, en interne nous travaillons sur une grande partie de ces sujets à notre niveau bien sûr.

Comme certaines conférences étaient communes avec la partie CORIA, j’ai pu notamment assister à la présentation Iadh Ounis  de l’université de Glasgow, qui a présenté un système de détection d’événement par l’analyse quasi temps réel des tweets dans le monde. Des problématiques informatiques impressionnantes au regard des volumétries, plus de 100 000 tweets analysés par seconde. L’objectif étant d’informer la police, les journalistes, etc… d’événements qui se produisent. L’idée originale est de croiser dans la foulée, les recherches effectuée sur Wikipedia sur ces mêmes sujets, 2 heures après les tweets.

pour plus d’information sur ce colloque http://sdnri2014.loria.fr/ 

Notion de pages blanches dans le contexte de la dématérialisation

Sujet à priori sans intérêt, quoi-que…

Existe-il une définition de la notion de page blanche ? La meilleure que je connaissance, dans le contexte de la dématérialisation, est : une image non porteuse d’information

Le problème de cette définition, c’est qu’elle est finalement très subjective. Quelques visuels qui ne posent problème à personne :

miniature d'une page blanche

page blanche avec légère bordure noire

miniature page avec pb de transparence

page verso avec par transparence texte du recto

miniature d'une image avec trous de perforation

page blanche verso mais présence bordures noires et trous de perforation

On voit bien que ces trois images répondent bien à la définition, même si elles ne sont pas blanches.

La raison de cet article est que les logiciels de scan vont avoir des difficultés à supprimer ces images, avec le seul outil standard qui est en général proposé. Il supprime les images au regard du poids de celle-ci (en octets) ou de la couverture noire sur l’image (exprimé en %).

Des produits permettent de supprimer les bordures noires, d’autres les trous de perforation, mais cela ne fait que réduire le problème, pas le supprimer.

Voici un exemple d’image qui est à conserver :

miniature d'une image avec qu'un numéro de page

page ne contenant qu’un numéro de page

C’est bien sûr l’exemple extrême, d’une page ne contenant qu’un numéro de page. Le poids d’une telle image est inférieure aux images à supprimer ci-dessus.

L’image ci-dessous est en général à supprimer, même si elle est loin d’être blanche, mais elle répond à la définition.

miniature d'une image couverte de texte

Conditions générale de vente

Ce type de page, sur certaines prestations est présent sur tous les versos, et n’apporte donc aucune information particulière.

Nous avons résolu en automatique, la suppression des pages blanches dans nos chaines de production, par du traitement d’images et par l’utilisation de modèles, en ce qui concerne les conditions générales de vente. L’OCR peut-être une idée, mais elle ne fonctionne pas sur tous les documents, dont le manuscrit, de plus la transparence peut être vue comme du texte.

Un peu d’humour..

miniature d'une image comportant un texte "page blanche"

image volontairement blanche

Pour une question de pagination, des documents comportent ce type de page…

.