Menù Principale

Cerca
Login
Registrati
Link
<< Discussione precedente | Discussione successiva >>   
PDF in Testo per Excel

Autore Messaggio
rbon
ven 02 mag 2008 - 16:36
online
Utente registrato #4134
Registrato il: sab 14 apr 2007 - 11:42
Messaggi: 910

Una procedura mi ha creato un file .pdf (non altri formati) contenente una lunga tabella di dati.
Mi sono chiesto se è possibile ottenere i files di testo contenuti nel pdf per unirli fra loro ed importarli
in Excel.

Ho trovato 2 (due) programmi: pdftohtml e html2txt entrambi open source e command-line,
(mi risulta che siano completamente portabili).

Riferimenti:
pdftohtml v. 0.39
- sourceforge page : -Link-
- download page : -Link-
- win32 download page :
-Link-
HTML 2 TXT v. 2.01
- web site: -Link-
- download page: -Link-
- download hosting: -Link-

Il primo programma è un decompilatore che estrae i files.html contenuti nel pdf: 1 file.html per ogni pagina +
.html per elenco + .html per indice
Il secondo programma toglie tutti i comandi html dai files (relativi alla formattazione di stampa) e crea dei files
di testo (ascii puri) da unire fra loro (con un editor), per poi importare in excel.

Dato che si tratta di programmi command-line mi sono preparato 2 (due) files .bat che propongo:

pdf2html.bat
---------------
echo off
cls
start pdftohtml.exe -c file.pdf

htmltotxt.bat
------------------
start html2txt.exe %1.html %1.txt

Il primo .bat può essere lanciato da Windows ma presuppone che il file .pdf si chiami 'file.pdf' (basta rinominarlo)
il secondo .bat va lanciato da una finestra ms-dos con la sintassi:
htmltotxt nome_file (dove nome_file è il nome del primo file .html senza indicare l'estensione)
es. htmltotxt file-1 (viene creato il file: file-1.txt)

Allegati:

pdftohtml-0.39-win32.tar.gz
html2txt201.zip
pdf2html_bat.zip
htmltotxt_bat.zip
Torna ad inizio pagina
rbon
mer 14 mag 2008 - 13:53
online
Utente registrato #4134
Registrato il: sab 14 apr 2007 - 11:42
Messaggi: 910
pdf2htmlgui

GUI per il programma pdf2html
(licenza GPL)

pdf2htmlgui.zip
Torna ad inizio pagina
icemax
mer 14 mag 2008 - 18:27

online
Utente registrato #194
Registrato il: dom 21 gen 2007 - 22:27
Messaggi: 1371
a riguardo .. alcune gui create dal sottoscritto .. richieste in alcuni
forums ..

li allego al post

1 - P2H Pdf to html .. esegue tutto in automatico basterà draggare i file PDF sull'immagine

2 - P2T Pdf to Text esegue direttamente la conversione in automatico in testo
trascinando (draggando ) il file sull'immagine


entrambe sono GUI che si interfacciano ai rispettivi programmi open source

ovvero : Pdftohtml e pdftotext


Provali e fammi sapere ... in caso li "timbriamo" made in WPP

ciaus

PS. non ancora compatibili per vista .. ma se serve ci metto un'attimo

2_gui_by_icemax.rar

............. ah ...scordavo ....... SONO entrambi portatili ... creano un file .ini nella cartella main

[ Modificato mer 14 mag 2008 - 18:31 ]
Torna ad inizio pagina
grangas
mer 14 mag 2008 - 21:32

online
Utente registrato #4479
Registrato il: mar 01 mag 2007 - 23:51
Provenienza: Saludecio (RN)
Messaggi: 445
Piccola proposta/idea...
Visto che sono programmi "simili" perchè realizzate (io non ne sono capace) una gui unica per entrambi i programmi?
E' più semplice getire un programma che fà due cose che due programmi che fanno una cosa ciascuno secondo me
Torna ad inizio pagina
rbon
gio 15 mag 2008 - 08:35
online
Utente registrato #4134
Registrato il: sab 14 apr 2007 - 11:42
Messaggi: 910
Ciao icemax,
grazie per le gui che hai proposto. Non mancherò di farti sapere come mi trovo con i tuoi programi.

Torna ad inizio pagina

Moderatori: Danix, Taf, Rcs, Energy, zandet2, ZioZione, Admin, LordJim60

Salta:     Torna ad inizio pagina

RSS discussione: rss 0.92 RSS discussione: rss 2.0 RSS discussione: RDF
Powered by e107 Forum System