Menù Principale

Cerca
Login
Registrati
Link
<< Discussione precedente | Discussione successiva >>   
OCR via batch + GOCR-Gui

Vai a pagina       >>  
Autore Messaggio
icemax
gio 10 gen 2008 - 15:52

online
Utente registrato #194
Registrato il: dom 21 gen 2007 - 22:27
Messaggi: 1371

Ciao .. a proposito di OCR vedi post sul forum

volevo dimostrarvi la potenza di GOCR (Gpl)

tramite un semplicissimo e fantastico file batch ( in allegato

l' allegato include 4 files:

- djpeg.exe -> converte il file JPG in formato PNM per Gocr
- gocr.exe -> Il motore di conversione ed elaborazione
- immagine.jpg -> l'immagine Campione dove eseguire l'OCR
- elabora.cmd -> file batch per eseguire i comandi

scaricate il file in allegato , decomprimetelo ed eseguite il file "elabora.cmd"

alla fine noterete la presenza del file "risultato.txt" .. ebbene .. "APRITELO"

A VOI I DOVEROSI COMMENTI

* PS * a breve una applicazione made in Winpenpack che automatizza il tutto


spero di esservi stato utile


oem.rar

[ Modificato lun 28 gen 2008 - 22:01 ]
Torna ad inizio pagina
Lupalberto
gio 10 gen 2008 - 17:24
online
Utente registrato #3564
Registrato il: gio 22 mar 2007 - 10:45
Messaggi: 66
Innanzitutto:
1. ti ringrazio per il tempo che mi hai dedicato nella ricerca di un OCR: gocr è un discreto punto di partenza (anche se ho provato a fotografare un testo su due colonne e gli esiti sono in caratteri egiziani --> del resto capita(va) così anche con sofware + blasonati)

2. la gui che mi hai segnalato è decisamente spartana e oltretutto freeware, quindi non icsizzabile (o se preferisci x-izzabile --> chiederò il copyright sul termine, se piace), quindi mi stuzzica molto l'idea che tu stia preparanta un'altra interfaccia

3. non capisco un c. di programmazione e quindi non so se ciò che ti sto chiedendo sia effettivamente possibile....

... tutto ciò premesso...

sarebbe possibile integrare anche una cattura desktop GPL in modo da creare una sorta di clone del già citato Jocr. Non sarebbe male poter svolgere una procedura del tipo a) fotografo un documento da riscrivere b) seleziono con la cattura del desktop la parte che mi interessa far riconoscere c) lo ottimizzo in PMn d) lo do' in pasto a Gocr.

Se i punti b,c e d potessero essere accomunate da un unico programma, sarebbe un grande colpo.

Se ho scritto una cavolata, perdonami
Torna ad inizio pagina
zandet2
gio 10 gen 2008 - 18:06

online

Utente registrato #3184
Registrato il: mar 06 mar 2007 - 11:52
Provenienza: Busto Arsizio
Messaggi: 3301
icemax ha scritto ...

alla fine noterete la presenza del file "risultato.txt"


[Risultato.txt]

"I sistemi di OpticaI Charaer Recognition (r)conosc)mento ott)co de) caratter) detti anche OCR) sono programmi dedicati aIIa
conversione di un'immagine contenente testo in testo modifcabiIe con un normaIe programma di videoscrittura. SoIitamente Ie
immagini sono acquisite da uno scanner d'immagini o da un sistema di digitaIi22a2ione che si awaIe di una teIecamera o di una
webcam. II testo viene conveito in testo ASCII , Unicode o neI caso dei sistemi piu avan2ati in un formato in grado di contenere
anche I'impagina2ione deI documento. I programmi di OCR si awaIgono dei progressi deII'inteIIigen2a aifciaIe e deII'evoIu2ione
degIi aIgoritmi Iegati aI riconoscimento deIIe immagini"

E' un risultato apprezzabile?
Bisognerebbe girare la domanda a chi effettua scansioni massive, o almeno sapere quale è la percentuale di corretto riconoscimento di un testo per decretare o meno la bontà...
Qualche esperto ha informazioni in merito?

P.S. Se il risultato fosse buono, potrebbe venire molto utile per una cosa da avviare che Danix sa...


[ Modificato gio 10 gen 2008 - 18:10 ]
Torna ad inizio pagina
Moticanus
gio 10 gen 2008 - 18:37
online
Utente registrato #4618
Registrato il: gio 10 mag 2007 - 08:29
Provenienza: Modica
Messaggi: 1352
Icemax così ci costringi a farti una statua ...portabile ovviamente!!!!!!!!!!!!
Torna ad inizio pagina
icemax
ven 11 gen 2008 - 10:00

online
Utente registrato #194
Registrato il: dom 21 gen 2007 - 22:27
Messaggi: 1371
Lupalberto ha scritto ...


... tutto ciò premesso...

sarebbe possibile integrare anche una cattura desktop GPL in modo da creare una sorta di clone del già citato Jocr. Non sarebbe male poter svolgere una procedura del tipo a) fotografo un documento da riscrivere b) seleziono con la cattura del desktop la parte che mi interessa far riconoscere c) lo ottimizzo in PMn d) lo do' in pasto a Gocr.

Se i punti b,c e d potessero essere accomunate da un unico programma, sarebbe un grande colpo.

Se ho scritto una cavolata, perdonami



ci sto lavorando :

ed esattamente :

1 - snap della zona
2 - conversione in JPEG con fattore di compressione personale
3 - elaborazione ocr automatizzata
4 - modifica del testo



a breve una beta .. sarà una nostra creazione .. un Mini OCR made in Winpenpack

ciao
Torna ad inizio pagina
Lupalberto
ven 11 gen 2008 - 13:24
online
Utente registrato #3564
Registrato il: gio 22 mar 2007 - 10:45
Messaggi: 66
poi devi solo + specificare di che materiale vuoi il monumento (non andare sul troppo costoso).
Torna ad inizio pagina
Lupalberto
ven 11 gen 2008 - 13:50
online
Utente registrato #3564
Registrato il: gio 22 mar 2007 - 10:45
Messaggi: 66
zandet2 ha scritto ...

icemax ha scritto ...

alla fine noterete la presenza del file "risultato.txt"


E' un risultato apprezzabile?
Bisognerebbe girare la domanda a chi effettua scansioni massive, o almeno sapere quale è la percentuale di corretto riconoscimento di un testo per decretare o meno la bontà...
Qualche esperto ha informazioni in merito?



Per potere rispondere a qualche domanda occorre fare un test con un'immagine di qualità maggiore (almeno 144 Dpi): ho portato quindi la qualità a 150Dpi

Ecco il Risultato di GOCR

I sistemi di OpticaI Character necagnition (ricanoscimento aico dei
caraeri dei anche OCn) sono programmi dedicati aIIa conversione di
un'immagine contenente testo in testo modificabiIe con un normaIe
programma di videoscriura. SoIitamente Ie immagini sono acquisite da
una scanner d'immagini o da un sistema di digitalizzaziane che si awaIe di
una teIecamera o di una webcam. II testo viene conveito in testo ASCII,
Unicode a neI caso dei sistemi piu avanzati in un formato in grado di
contenere anche I'impaginazione del documento. I programmi di OC si
awaIgono dei progressi deII'inteIIigenza aificiaIe e deII'evoIuziane degIi
aIgaritmi legati aI riconoscimento deIIe immagini.

Ecco il risultato di FreeOCR (basato sul motore di tesseract di Google)

l sistemi di Optical Character Recognition [riconoscimento ottico dei
caratteri detti anche OCR] sono programmi dedicati alla conversione di
unimmagine contenente testo in testo modificabile con un normale
programma ai videoscrittura. Solitamente le immagini sono acquisite da
uno scanner dimmagini o da un sistema di digitalizzazione che si avvale di
una telecamera o di una webcam. Il testo viene convertito in testo ASCII.
Unicode o nel caso dei sistemi piu avanzati in un formato in grado di
contenere anche limpaginazione del documento. I programmi di OCR si
avvalgono dei progressi aellintelligenza artificiale e aellevoluzione degli
algoritmi legati al riconoscimento delle immagini.

Ecco da ultimo il risultato del software OCR integrato in Adobe Acrobat 7:
I sistemi di Optical Churacter Recognition (riconoscimento ottico dei
caratieri detti anche QCR) cono programmi dedicati alla conversione di
unYmrnaginie contenente testo in testo modificabile con un normale
programma di videoscritliura. Solitamente le immagini sono acquisite da
uno scanner d'immagini o da un sistema di digitalizzuzione che si awale di
una telecamera o di una webcam. Il testo viene convertito in testo ASCII,
Unicode o nel caso dei sistemi pih avanzati in un formato in grado di
contenere anche I'impaginazione del documento. I programmi di OCR si
awalgono dei progressi dell'in2elligenza aflificiale e dell'evoluzione degli
algoritmi legati al riconoscimento delle immagini.

Per rendere + affidabile il test bisogna fare il paragone con un software specifico; a casa con lo scanner dovrebbe essere allegata una versione OEm diOmnipage: la installo e poi riporto la verifica.

Due prime considerazioni:
1. Bisognerebbe poter scegliere la risoluzione dello snap (l'accuratezza del riconoscimento è direttamente proporzionale alla risoluzione dell'immagine)
2. GOCR è l'unico a poter esaminare documenti a 72Dpi (tra quelli che ho potuto provare) e sulla prova dei 150 non sfigura rispetto al concorrente non a pagamento, ma anche quello commerciale, seppur non specifico, non è perfetto.

Allego i file
risultati.zip
Torna ad inizio pagina
icemax
lun 28 gen 2008 - 15:40

online
Utente registrato #194
Registrato il: dom 21 gen 2007 - 22:27
Messaggi: 1371
icemax ha scritto ...

Lupalberto ha scritto ...


... tutto ciò premesso...

sarebbe possibile integrare anche una cattura desktop GPL in modo da creare una sorta di clone del già citato Jocr. Non sarebbe male poter svolgere una procedura del tipo a) fotografo un documento da riscrivere b) seleziono con la cattura del desktop la parte che mi interessa far riconoscere c) lo ottimizzo in PMn d) lo do' in pasto a Gocr.

Se i punti b,c e d potessero essere accomunate da un unico programma, sarebbe un grande colpo.

Se ho scritto una cavolata, perdonami



ci sto lavorando :

ed esattamente :

1 - snap della zona
2 - conversione in JPEG con fattore di compressione personale
3 - elaborazione ocr automatizzata
4 - modifica del testo



a breve una beta .. sarà una nostra creazione .. un Mini OCR made in Winpenpack

ciao



la prima beta di valutazione solo ed esclusivamente per test, del programma è stata completata :

nome del software prodotto : GOCR-Gui (700 Kb) (in allegato a questo messaggio)

caratteristiche della beta :

- GOCR-Gui è perfettamente PORTATILE e non richiede installazione di nessun componente o libreria.
- Motore OCR : Gocr (integrato nell'eseguibile)
- Motore JPEG : ijl11.dll (integrato nell'eseguibile)
- Motore Twain : TWAIN32d.dll (integrato nell'eseguibile)
- GOCR-Gui permette di selezionare e o ritagliare una parte dello schermo dove effettuare
lo scan per l'OCR
- GOCR-Gui permette di copiare l'immagine selezionata in memoria
- GOCR-Gui permette lo scan da periferica twain (Scanner) senza nessuna
installazione di librerie o altro sul sistema ospite.
- GOCR-Gui permette di modificare il testo estratto in una tbox semplice
- GOCR-Gui si serve di un'icona fluttuante nel desktop per la selezione delle principali
funzioni.
- GOCR-Gui permette di applicare vari effetti all'immagine selezionata in modo da ottimizzare
lo scan OCR


Compatibilità :

- il test del programma è stato effettuato sui seguenti sistemi :
- Windows 2000 SP2 fino a SP4
- Windows XP home e pro Spack1 e Spack2
- Windows VISTA - Tutte le versioni a 32 bit
- memoria RAM minima necessaria al funzionamento di GOCR Gui : 64 Mb
- Risoluzione schermo minima : 800x600 pixel
- GOCR-Gui deve essere avviato da un drive con modalità lettura-scrittura
e per tale motivo (momentaneamente) NON puo essere avviato da una unità ottica
quale CD o DVD


- il programma è ancora in fase di test .. ed è stato postato sul forum esclusivamente
per tale motivo .. è non puo' essere distribuito senza prima averne esplicita autorizzazione
da parte dello sviluppatore (me stesso)


attendo i vostri commenti ( di qualsiasi genere )

file in allegato :

screenshot e mini guida :



facendo click con il tasto dx del mouse si avrà :



una volta selezionato OCR .. e selezionato la zona .. l'immagine sarà trasferita
sulla finestra principale :



e da qui elaborare l'ocr
.


il file in allegato qui :



file rimosso .. per aggiornamento versione[/file]
lo troverete in allegato nei post successivi (pag 2)

[ Modificato mar 29 gen 2008 - 16:22 ]
Torna ad inizio pagina
Moticanus
lun 28 gen 2008 - 23:40
online
Utente registrato #4618
Registrato il: gio 10 mag 2007 - 08:29
Provenienza: Modica
Messaggi: 1352
mi accingo alla prova...sono emozionato
Torna ad inizio pagina
Moticanus
lun 28 gen 2008 - 23:43
online
Utente registrato #4618
Registrato il: gio 10 mag 2007 - 08:29
Provenienza: Modica
Messaggi: 1352
... ...funziona parecchio bene

[ Modificato lun 28 gen 2008 - 23:48 ]
Torna ad inizio pagina

Vai a pagina       >>  
Moderatori: Danix, Taf, Rcs, Energy, zandet2, ZioZione, Admin, LordJim60

Salta:     Torna ad inizio pagina

RSS discussione: rss 0.92 RSS discussione: rss 2.0 RSS discussione: RDF
Powered by e107 Forum System