Tharkun
06/02/2007 à 12:22
Dans le milieu des années 1960, mon beau père a écrit un roman. Ce roman a été publié comme feuilleton dans un quotidien régional. Aujourd’hui, il ne nous reste, outre le manuscrit de mon beau-père, qu’un exemplaire sur papier journal qui vieillit inexorablement et des photocopies de mauvaise qualité, même pas complètes.
J’ai tenté de le scanner et faire de l’OCR dessus il y a quelques années, quand j’avais accès à un logiciel d’OCR au bureau -ABBY Fine Reader -, mais le résultat était très mauvais, probablement à cause de la qualité de la source : mauvais contraste, police très petite.
J’ai donc 179 pages que j’aimerais bien voir sous un format électronique. Je peux le scanner en PDF, mais c’est une solution qui ne ma satisfait pas vraiment.
J’ai déjà tapé une quinzaine de pages d’origine soit 8 pages de Word en Times New Roman 10. C’est long et fastidieux.
Les logiciels d'OCR ont-ils beaucoup progressé depuis 2002 ?
Dois-je investir dans un logiciel de reconnaissance vocale ?
Dois-je me résoudre à tout saisir à la main ?
Dois-je faire appel aux bonnes volontés (de PA ?) pour m’aider dans cette tâche ??
Piesal
06/02/2007 à 12:30
Essaie la dernière version d'ABBY et peut-être un meilleur scanner.
Sinon tu paies combien la page saisie ?
tu peux éventuellement me MP-iser une ou deux pages, pour faire un essai
(Canon MP500 avec un OCR que je n'ai pas encore testé, ce sera une bonne occasion pour moi

).
EDIT : l'OCR livré avec ma canon est OmniScan SE v2.0.....
Au final, même si l'OCR n'est pas parfait, ce peut être un bon début pour corriger plutôt que de saisir 100% du texte.
Je fairais déjà 2 scans en PDF en 300DPI minimum et niveau de gris, le manuscrit et l'exemplaire du journal.
Le fichier sera un peu lourd mais au moins tu auras une sauvegarde des originaux.
Après à partir de ces fichiers, tu pourras toujours les retravailler d'une manière ou d'une autre.
En plus 179 pages, ca ne fait pas un fichier énorme.
J'ai un document scanné de 124pages en niveau de gris qui fait 60Mo.
poissonfree
06/02/2007 à 13:11
Et si tu passais par une boite spécialisée dans ce genre de truc, non

?
nelson
06/02/2007 à 13:15
comme pjl, je te conseille de scanner les originaux et de les enregistrer en pdf pour avoir des archives précieuses. Concernant l'OCR, je veux bien tester sous MacOS X j'utilise ReadIris. Je t'envoie un MP.
Tharkun
06/02/2007 à 13:30
CITATION(aiwei @ 06/02/2007 à 12:33 )

tu peux éventuellement me MP-iser une ou deux pages, pour faire un essai
Je te l'envoie en quel format ? PDF ? TIFF multipages ?
Sinon, si tu as besoin de faire taper quelques pages, je suis volontaire.
Philippe-78
06/02/2007 à 13:49
CITATION(erwan @ 06/02/2007 à 13:48 )

Sinon, si tu as besoin de faire taper quelques pages, je suis volontaire.

Pareil
Les softs d'OCR ont bien évolué quand même. Omnipage et consors sortent une nouvelle version quasiment chaque année.
Note que la qualité du scanner et les paramètres de scan influencent également la reconnaissance.
CITATION(Tharkun @ 06/02/2007 à 13:30 )

Je te l'envoie en quel format ? PDF ? TIFF multipages ?
OmniPage Se prend en compte .tif .bmp .dcx .pcx .jpg .png .max .gif .pdf .xif
mais je ne sais pas s'il y aura des différences quant au résultat....
L'exemple fourni avec le soft est un tif multipages, donc je suppose que ça marche très bien avec.
CITATION(snark @ 06/02/2007 à 14:05 )

Note que la qualité du scanner et les paramètres de scan influencent également la reconnaissance.

je me souviens avoir essayé sur un autre pc avec une version précédente de OmniPage, avec une copie de copie de document mal imprimé, avec du scan 150ppp, 300ppp et 600ppp, le résultat était carastrophique car chaque "tâche" sur le papier était considérée comme un morceau de caractère différent de la "tâche" juste à côté. J'avais donc abandonné !
G.Gagné
06/02/2007 à 14:20
Je peux peut-être t'aider en tapant quelques pages ?
La plupart des softs de scan actuels préfèrent les scans en teinte de gris, voir même en couleur, les nuances les aident à mieux déterminer les formes et limites des caractères!
Tharkun
06/02/2007 à 14:32
Intéressant, snark. J'eus été persuadé du contraire.
polly peachum
06/02/2007 à 17:02
Comme les copains, Tharkun : je postule pour t'aider à la saisie, si besoin.
En s'y mettant à plusieurs on devrait en venir à bout rapidement, non ?
Et, sinon, pourquoi ne pas penser à un logiciel de reconnaissance vocale ?
J'ai travaillé un temps avec Dragon Naturaly Speaking : il y a un long temps de paramétrage mais après ça roule vite et bien je trouve ...
Idem que les autres pour saisir quelques pages
CITATION(Piesal @ 06/02/2007 à 12:30 )

Essaie la dernière version d'ABBY et peut-être un meilleur scanner.
Sinon tu paies combien la page saisie ?

Je confirme, avec la dernière version d'ABBY tu peux scanner à peu près n'importe quoi, il reconnaîtra absolument tout sans exception, avec des collègues avec la version 8 Professional Edition, nous avions scanné des textes de loi, des romans, des modes d'emploi techniques avec des images et des plans, et même nous avions poussé le vice jusqu'à scanner un catalogue de ventre par correspondance, tout avait été reconnu à 100%, et nous avions conservé la mise en page de tout ce que nous avions scanné.
A noter que tout avait été scanné à 600 dpi, pas besoin donc d'un scanner de grande qualité, mon vieux
Canon N670U, un vieux scanner bon marché auto-alimenté sur port USB, a réalisé les scans haut-la-main.
Edit : en 600 dpi et comme d'autres l'ont dit, en couleurs, c'est mieux reconnu que les scans gris.
CITATION(Trudi @ 06/02/2007 à 20:25 )

scanner un catalogue de ventre par correspondance, tout avait été reconnu à 100%
ah bon ? A la fin, tu avais l'adresse des ventres ?........
ça marche aussi bien que les empreintes digitales ou l'ADN ?

de vente, bien sûr, pas de ventre

J'ai rippé sur le clavier...
Tharkun
07/02/2007 à 10:58
CITATION(Trudi @ 06/02/2007 à 20:25 )

Je confirme, avec la dernière version d'ABBY tu peux scanner à peu près n'importe quoi, il reconnaîtra absolument tout sans exception
Je suis en train de tester avec la version de démo. Ca à l'air assez bon. Je vais refaire des tests en 600 dpi couleurs dans la journée.
CITATION(aiwei @ 06/02/2007 à 21:20 )

ça marche aussi bien que les empreintes digitales ou l'ADN ?
t'as perdu ton scooter ??
Tharkun
08/02/2007 à 14:04
Ouais, ben, merci Trudi !
ABBY Finereader est impressionnant !
Piesal
08/02/2007 à 14:43
Ou bien j'ai mal cherché ou bien la version gratuite simple (pour particulier) n'existe plus.
Effectivement il n'y a plus de version gratuite

Mais l'investissement en vaut le coup, c'est un logiciel fabuleux.
Piesal
08/02/2007 à 19:52
C'est un très bon logiciel dont je me sers depuis longtemps.
Pour les volumes que j'ai, je vais garder ma veille version.
Tabetozor
09/02/2007 à 06:20
et merci à tout ceux qui ce sont proposé.... J'aime bien PA pour cela
Triello
09/02/2007 à 12:47
Si le groupe des "saisisseurs" est encore ouvert, j'suis partant Tharkun pour quelques pages aussi !
Remarque : en ce qui me concerne, j'ai toujours préféré ressaisir un texte à la main plutôt que de passer par un OCR, y'a toujours beaucoup d'erreurs encore plus pénibles à corriger que la saisie elle-même. Ceci dit les quelques tentatives que j'ai faites l'ont été avec Readiris version 7. Depuis, y'a sans doute mieux !
CITATION(Piesal @ 08/02/2007 à 14:43 )

Ou bien j'ai mal cherché ou bien la version gratuite simple (pour particulier) n'existe plus.
Y'a une
version d'essai pour être sûr que ça fonctionne.
Tharkun
09/02/2007 à 13:49
CITATION(snark @ 09/02/2007 à 13:15 )

Y'a une
version d'essai pour être sûr que ça fonctionne.

15 jours, je devrais être bien sûr dans 15 jours...
Tharkun
12/02/2007 à 15:13
CITATION(Tabetozor @ 09/02/2007 à 06:20 )

et merci à tout ceux qui ce sont proposé.... J'aime bien PA pour cela

Bien sûr, je remercie toutes les bonnes volontés qui se sont proposées.
Philippe-78
12/02/2007 à 17:07
CITATION(Tharkun @ 12/02/2007 à 15:13 )

Bien sûr, je remercie toutes les bonnes volontés qui se sont proposées.
de rien

et content quand même que tu ais trouver une solution alternative
Tharkun
20/02/2007 à 10:30
C'est terminé : scanné, reconnu, relu...
Encore un bonne relecture à faire et ce sera bon !
acidtest
21/02/2007 à 15:35
Finalement , c'est quoi le réglage optimal ? de ton coté.
Personnellement, j'ai scanné une dizaine de livres.
Mon réglage optimal, c'est du noir et blanc 300pp, en png (faible taille des fichiers) en réglant bien le contraste pour éviter les points parasites. C'est ce réglage qui décide du succès de l'OCR
Je confirme qu'Abby c'est du top.
Mes expériences avec les niveaux de gris sont décevantes, et capte trop de parasites.
La couleur n'apporte rien de plus
Tharkun
21/02/2007 à 15:46
Je n'ai pas vraiment pris le temps de faire des essais avec différents réglages. De plus, les pages étaient dans des états divers et pas homogénes.
Bref, j'ai scanné en couleur 600x600 (la police était vraiment très petite !) et je m'en suis sorti ; c'était l'essentiel pour moi !
Piesal
21/02/2007 à 17:34
Pour info, ça t'as pris combien d'heures cette BA ?
(Je ne dis pas BA pour te vexer ...

)
Tharkun
21/02/2007 à 17:41
Je ne sais pas...10 à 12 heures environ...
Je fais encore quelques vérifications et après je chercherai quelques volontaires pour relecture.
Piesal
21/02/2007 à 17:45
CITATION(Tharkun @ 21/02/2007 à 20:41 )

Je ne sais pas...10 à 12 heures environ...
Toi et Abby, vous êtes dôlement efficaces.
Chapeau !
Je veux bien relire mais ni mon style, ni mon orthographe ne plaident pour ce travail.
J'ai du temps libre.
polly peachum
21/02/2007 à 23:53
Prête aussi pour les relectures, Tharkun.
jbatman
22/02/2007 à 08:09
Je me porte également candidat!
Tharkun
23/02/2007 à 11:20
CITATION(Piesal @ 21/02/2007 à 17:45 )

Je veux bien relire mais ni mon style, ni mon orthographe ne plaident pour ce travail.
J'ai du temps libre.
CITATION(polly peachum @ 21/02/2007 à 23:53 )

Prête aussi pour les relectures, Tharkun.
CITATION(jbatman @ 22/02/2007 à 08:09 )

Je me porte également candidat!

Merci à vous.
J'ai besoin de relecteurs qui me signalent :
- les fautes d'ortographe ou de grammaire
- les fautes de typographie (espace mal placés, etc.)
- les incohérences (noms propres orthographiés différement, etc.)
bref, tout ce qui vous semble bizarre.
Je vous enverrai un MP avec un lien vers le fichier ce soir ou ce WE.
L'idéal est d'assigner X pages différentes par personne, histoire de ne pas dupliquer inutilement les efforts.
Philippe-78
23/02/2007 à 11:51
Je me porte également volontaire
Présent également.
Tharkun
23/02/2007 à 12:04
CITATION(snark @ 23/02/2007 à 11:22 )

L'idéal est d'assigner X pages différentes par personne, histoire de ne pas dupliquer inutilement les efforts.
Oui, j'y ai pensé mais ça ne répond pas à ce point :
CITATION(Tharkun @ 23/02/2007 à 11:20 )

- les incohérences (noms propres orthographiés différement, etc.)
et, de plus, s'agissant d'un roman, il peut-être frustrant de ne lire qu'une partie...
Triello
23/02/2007 à 12:29
Présent également (même si je risque de ne pas être très rapide vu le boulot en cours…

)
Tharkun
24/02/2007 à 00:44
CITATION(Tharkun @ 23/02/2007 à 12:04 )

CITATION(snark @ 23/02/2007 à 11:22 )

L'idéal est d'assigner X pages différentes par personne, histoire de ne pas dupliquer inutilement les efforts.
Oui, j'y ai pensé mais ça ne répond pas à ce point :
CITATION(Tharkun @ 23/02/2007 à 11:20 )

- les incohérences (noms propres orthographiés différement, etc.)
et, de plus, s'agissant d'un roman, il peut-être frustrant de ne lire qu'une partie...
Les volontaires, vous en pensez quoi ???
Piesal
24/02/2007 à 05:01
CITATION(Tharkun @ 24/02/2007 à 03:44 )

Les volontaires, vous en pensez quoi ???
Envoie tout.
Mais ça va te faire 179 pages à relire par correcteur ...
Précise bien ce que tu veux et la forme dans laquelle on doit faire le retour.
G.Gagné
24/02/2007 à 05:23
Je peux aider... C'est ce que je fais dans la vie... corriger les fautes, la syntaxe et la cohérence !

Si tu as besoin, fais-moi signe !
CITATION(Piesal @ 24/02/2007 à 05:01 )

Mais ça va te faire 179 pages à relire par correcteur ...
Et comment va se faire la collation de toutes les versions des différents correcteurs?
Philippe-78
24/02/2007 à 09:49
CITATION(Tharkun @ 24/02/2007 à 00:44 )

Les volontaires, vous en pensez quoi ???
J'en pense que ca ne me pose pas de problème... si tu n'es pas pressé !
chiantis yogurt
24/02/2007 à 10:41
CITATION
----
L'idéal est d'assigner X pages différentes par personne, histoire de ne pas dupliquer inutilement les efforts.
Oui, j'y ai pensé mais ça ne répond pas à ce point :
----
les incohérences (noms propres orthographiés différement, etc.)
----
et, de plus, s'agissant d'un roman, il peut-être frustrant de ne lire qu'une partie...
----
Les volontaires, vous en pensez quoi ???
Installer un Wiki ?
(PS : volontaire aussi

)
Ceci est une version "bas débit" de notre forum. Pour voir la version complète avec plus d'information, la mise en page et les images, veuillez
cliquer ici.