Estrarre campi per un database da file PDF

Di: Superbuc | 26/09/2020 17:30:31
Dunque, ho questo tipo di pdf (purtroppo sono doc riservati e non posso postarli, dovrò spiegarli come meglio possibile).
Ci sono dei paragrafi, per es. 1.2, 1.2, 1.3, ecc
Sotto ognuno c'è un riquadro di grandezza variabile, dentro cui è scritto un testo.
Molto semplicemente (si fa per dire) vorrei trovare un sistema per individuare i riquadri in base al nome del paragrafi, e infilarli in un database, o anche in excel.
Ho provato con la predisposizione dei form, ma il grosso problema è che i riquadri non sono mai uguali. Pur essendoci gli stessi paragrafi, un documento è di 10 pagine e un altro di 20.
Ho provato a fare l'ocr sia con acrobat che con readiris, ma davanti al risultato mi sono chiesto "e ora?"
Sto provando a inserire un carattere all'inizio del paragrafo, con sostituisci, e usarlo poi per dargli il limite della colonna.
Non so come sarà il risultato, ma avete altre idee, più adatte ?
Grazie

Risposte


Nessuna risposta trovata!