11Sep

Jak mohu kopírovat text z PDF při zachování formátování?

PDF, všudypřítomný formát dokumentu, je skvělý pro sdílení dokumentů při zachování písem, obrázků a obecného rozvržení mezi platformami. Existuje však snadný způsob, jak zachovat toto formátování při kopírování a vkládání textu z dokumentu?

dnešní otázka &Odpověď na zasedání se k nám dostala s laskavým svolením SuperUser - podřízenou výměnou Stack Exchange, skupině webů Q & A založených na komunitě.

Otázka

Reader SuperUser Colen hledá způsob, jak extrahovat text z PDF souborů při zachování formátování:

Při kopírování textu ze souboru PDF a do textového editoru se to konečně změní různými způsoby. Formátování jako tučné a kurzíva je ztraceno;přestávky měkké čáry uvnitř odstavce textu se převedou na přestávky na pevných linkách;pomlčky, aby se přerušilo slovo nad dvěma řádky, se zachovaly, i když by neměly být;a jednoduché a dvojité uvozovky jsou nahrazeny?znamení.

V ideálním případě bych chtěl být schopen zkopírovat text z PDF a formátovat převést na HTML kódy, "inteligentní uvozovky" převedené na "a" a řádkové přestávky správně.Existuje nějaký způsob, jak to udělat?

Existuje pro Collena( a pro ostatní) snadný a rychlý způsob, jak získat text bez obětování formátování?

Odpovědná odpověď

SuperUser přispěvatel Frabjous nabízí řešení v kombinaci s těžkou dávkou opatrnosti:

Nejprve musíte pochopit, co je PDF.Dokumenty PDF jsou navrženy tak, aby napodobovaly vytištěnou stránku a jsou navrženy pouze jako výstupní formát, nikoli jako vstupní formát. PDF je v podstatě mapa obsahující přesné umístění znaků( jednotlivé písmena nebo interpunkce atd.) nebo obrázky. Ve většině případů PDF ani neukládá informace o tom, kde končí jedno slovo a začíná další slovo, mnohem méně věcí, jako jsou mírné přestávky a těžké přestávky pro konce odstavců.

( Některé nedávné soubory PDF ukládají nějaké informace o těchto věcech, ale to je nová technologie a měli byste štěstí, že takové PDF soubory najdou. I kdybyste to udělali, váš prohlížeč PDF by možná o tom nevěděl.)

Každopádně,je na vašem softwaru, aby realizoval nějakou "umělou inteligenci", aby z míst jednotlivých znaků získal jen to, co je to slovo, co je to odstavec a tak dále. Různý software bude dělat to lépe než ostatní a bude také záviset na tom, jak byl PDF vytvořen. V žádném případě byste nikdy neměli očekávat dokonalé výsledky. Mít výstupní PDF není stejný jako mít zdrojový dokument. Je mnohem lepší se snažit získat to, pokud můžete.

Standardním řešením vašeho druhu problému je použití aplikace Adobe Acrobat Professional( drahé, nikoliv volné čtečky) pro konverzi PDF do HTML.Ani to nebude mít dokonalé výsledky.

K dispozici je bezplatný software, který lze použít k extrahování textu z PDF souborů s neporušeným formátováním, ale opět neočekávejte dokonalé výsledky. Viz např. Kalibr( který může převést na formát RTF), pdftohtml / pdfreflow nebo AbiWord textový procesor( se všemi importovanými / exportovanými pluginy).K dispozici je také plugin importu PDF pro OpenOffice.

Ale prosím neočekávejte dokonalost s některým z těchto výsledků.Jdeš sem proti obilí.PDF prostě není určen jako editovatelný vstupní formát.

Pokud máte potíže s rozhodnutím, který nástroj se má začít, je Calibre skutečný dokument švýcarského armádního nože. Můžete jej také použít k převodu souborů PDF pro použití ve vaší čtečce ebook a uspořádání knihovny ebook / dokumentů.

Musíte něco přidat k vysvětlení?Vypadněte v komentářích. Chcete se dozvědět více odpovědí od ostatních uživatelů technologie Stack Exchange? Podívejte se na celý diskusní příspěvek zde.