Acrobat: estrarre le immagini

Di: Superbuc | 26/09/2020 17:31:31
Ciao, uso Acrobat Pro X per MAC, ma quello che chiedo, se è possibile, è certamente fattibile indipendentemente dalla versione.
Dunque, ho alcuni pdf, con immagini e testo.
Quello che vorrei fare è estrarre le immagini, in modo da averle su file jpg o altro file grafico, separatamente. Ho provato con alcuni programmi per estrarre testo o immagini da Acrobat, ma niente. Probabilmente non riescono a riconoscere le immagini come separate dal testo.
Una alternativa potrebbe essere quella di estrarre le didascalie delle immagini, e poi usare altri programmi, per esempio wget, per scaricare dal web le immagini corrispondenti a quelle didascalie (sono tutte opere d'arte).
Le didascalie sono scritte tutte con un carattere diverso, più piccolo e in corsivo. Anche se il font mi sembra simile.
Vi chiedo, c'è un modo per chiedere ad acrobat di estrarre solo i testi caratterizzati, per esempio, dal corsivo, oppure quelli in forma di didascalie immagini ?
Ci sono programmi che lo fanno, meglio se per MAC, qualora non fosse possibile da acrobat direttamente ?
Oppure, qualcuno ha un'idea diversa che mi permetta di estrarre le immagini ?
Grazie mille, fate conto che i pdf sono decine e le immagini, in tutto, saranno duecento o più, farle a mano è l'ultimissima opzione...

Risposte



*pdfimages*
uso:
pdfimages file.pdf image-root
incluso negli
*xpdf-tools*
- http://users.phg-online.de/tk/MOSXS/
pdfimages estrae le immagini alla loro risoluzione originale, senza effettuare alcuna rasterizzazione o conversione

Di: Boe Doni | 26/09/2020 17:31:31


Domanda banale, hai provato direttamente in acrobat con avanzate > esporta tutte le immagini?

Di: alan.ford.tnt | 26/09/2020 17:31:31


Esporta immagini non va, già provato.
Invece non ho ben capito come funziona pdfimages.
Ovvero, sembra che non succeda niente se apro drop extract images e da lì faccio "Open"
Non ho capito come devo usare, ovvero dove devo dare il comando pdfimages.... ecc ecc
Lo uso come script ?
Scusate, ovviamente non sono pratico di Acrobat!

Di: Superbuc | 26/09/2020 17:31:31


qui non siamo all'ABC allora, ma nemmeno all'AB
se non è troppo confidenziale caricalo qui:
http://touch-file.com/ (puoi impostare la scadenza del file)
e inviami il link via pm

Di: Boe Doni | 26/09/2020 17:31:31


Esagerato !!!
Comunque ci sono riuscito, ma non viene quello che volevo.
Mi estrae una lista di 2000 immagini, la maggior parte delle quali sono pezzettini di colore dello sfondo o dei bordi.
Invece io devo estrarmi le immagini corrispondenti ai dipinti.
Ecco il link cmq:
https://touch-file.com/g.php?f=pa88li7o

Di: Superbuc | 26/09/2020 17:32:31


interessante: può succedere in certe condizioni, sarebbe interessante esaminare il file se si riuscisse a scaricare (hai messo una password e non me l'hai comunicata?)
voglio provare anche con altri software (podofoimgextract in primis)

Di: Boe Doni | 26/09/2020 17:32:31


Mi hai preso per forrest gump...
ecco un altro link, nessuna passowrd:
https://touch-file.com/g.php?f=03gs7kg

Di: Superbuc | 26/09/2020 17:32:31


niente, incorrect password: (forse la password è sempre necessario inserirla al momento dell'upload) usa http://ifile.it/ allora

Di: Boe Doni | 26/09/2020 17:32:31


Et voilà:
http://ifile.it/iclmohf/immaginipdf.pdf

Di: Superbuc | 26/09/2020 17:33:31


scaricato e aperto:
Title: LCI_SAC_L04_pdf [modalità compatibilità]
Subject:
Keywords:
Author: Utente
Creator: PDFCreator Version 1.0.1
Producer: GPL Ghostscript 8.71
CreationDate: Mon Aug 2 17:46:48 2010
ModDate: Mon Aug 2 17:46:48 2010
Tagged: no
Pages: 22
Encrypted: no
Page size: 595 x 842 pts (A4)
File size: 1813087 bytes
Optimized: no
PDF version: 1.4

il file pdf, prodotto da Ghostscript 8.71, come altri che ho visto (scanlations), incorpora alcune immagini per intero, mentre altre le divide in più segmenti (non si fanno i pdf in questo modo, accidenti)
una delle poche immagini intere è ad esempio questa:
http://ifile.it/0klfux4
le altre si possono ricostruire con i comandi compose, join e adjoin di imagemagick, si tratta di spenderci un po' di tempo
con podofoimgextract il numero di segmenti è ridotto (95)
persistono alcuni segmenti duplicati, ma si possono ricostruire le immagini
es:
- http://ifile.it/ekuhqv9
in questo archivio si vedono i due segmenti dell'immagine, quello superiore e quello inferiore, riuniti col comando di imagemagick

convert -append 0-5766.jpg 0-5767.jpg ricostruita.jpg

siccome podofoimgextract non è disponibile per il tuo sistema Mac, ecco le immagine estratte e filtrate dai doppioni
- http://ifile.it/vqsif43

Di: Boe Doni | 26/09/2020 17:33:31


Perfetto, è lo stesso risultato che ho ottenuto io, eliminando ovviamente pezzi e pezzettini di sfondi (nel caso mi pare siano blu o azzurri).
Il problema, però, è ch di pdf simili ce ne sono un centinaio, e in alcuni ci sono decine di immagini.
Per quello speravo ci fosse un modo per farlo fare al mac da solo. Mettersi a unire ogni immagine è pazzesco, con quei numeri.
C'è un sistema per estrarre invece i nomi delle didascalie ? Potrei usare quelli per cercare le immagini sul web, invece che prenderle dal pdf.
Intanto che lavoravo ho un altro problema, di natura completamente differente, sempre con dei pdf.
Ma per questo apro un nuovo post.

Di: Superbuc | 26/09/2020 17:33:31


il problema nella realizzazione di azioni automatiche (batch) risiede nella diversità di dimensioni e segmentazione delle immagini:
dunque si potrebbe tentare di modificare il pdf (ma se le immagini sono state incorporate in quel modo non credo che nemmeno ridistillandolo col distiller o con pstill, od operando prima un passaggio preliminare in postscript, si riuscirebbe a eliminarne la segmentazione)
un'altra strada però è possibile che potrebbe a un tempo fornire i nomi delle didascalie e le immagini riunite
importando il pdf in un software ocr, questi riconoscerebbe il testo mantenendo le immagini ancorate (e unite)
dopodiché è possibile scegliere diverse opzioni di salvataggio

Di: Boe Doni | 26/09/2020 17:33:31


Le immagini del pdf mi sembrano ben poche.
Suppongo che tu possa semplicemente usare lo strumento Taglierina, eliminare le pagine inutili e salvare o esportare.

Di: Pablito | 26/09/2020 17:34:31