11Sep

Hogyan lehet másolni a szöveget egy PDF-ből a formázás megőrzése közben?

click fraud protection
Az

PDF, a mindenütt jelen lévő dokumentumformátum kiválóan alkalmas a dokumentumok megosztására, miközben megőrzi a betűtípusokat, a képeket és az általános elrendezést az egyes platformokon. Van azonban egy egyszerű módja annak, hogy megőrizze ezt a formázást, amikor másolja és beilleszti a szöveget a dokumentumból?

A mai kérdés &A válaszüzenet a SuperUser - a Stack Exchange megosztottságának köszönhetően - a Q & A webhelyek közösségi szintű csoportosítása.

Kérdés

SuperUser olvasó A Colen olyan formátumot keres, amely a PDF formátumokból történő kivonás módját foglalja magában, miközben megőrzi a formázást:

A PDF-fájlból és szövegszerkesztőből történő szövegmásolás során többféleképpen is megszorult. A félkövér és dőlt formázás elvész;a szöveges bekezdésen belüli puha vonalszakadások kemény vonalszakaszokká alakulnak át;a két sor fölött levágott szóköz megmarad, még ha nem is;és az egy- és kettős idézetek helyett?jelek.

Ideális esetben szeretnék szövegeket másolni a PDF formátumból, és a formázás HTML kódokká alakulni, a "és" és a "line breaks" megfelelően átalakított "intelligens idézőjelek".Van valami mód erre?

instagram viewer

Van egy gyors és egyszerű mód Colen( és mi többiek) számára, hogy megragadja a szöveget anélkül, hogy feláldozná a formázást?

A válasz

SuperUser-hozzájáruló A Frabjous egy megoldást kínál, amely nagy adag óvatossággal társul:

Először is meg kell értened, mi a PDF.A PDF formátumokat úgy tervezték, hogy utánozzák a kinyomtatott oldalt, és csak kimeneti formátumúak, nem pedig beviteli formátumúak.a PDF alapvetően egy térkép, amely tartalmazza a karakterek pontos helyét( egyedi betűk vagy írásjelek stb.) vagy képeket. A legtöbb esetben a PDF nem is tárolja azt az információt, ahol egy szó befejeződik, és egy másik kezdődik, sokkal kevésbé olyan dolgok, mint a puha szünetek és a kemény mondatok.

( Néhány újabb PDF-fájl tárolja az információkról szóló információkat, de ez egy új technológia, és szerencsések lennének az ilyen PDF-fájlok megtalálásához.) Még

Mindegy,a szoftveredre van szükség valamiféle "mesterséges intelligencia" megvalósítására, hogy pusztán az egyes karakterek helyétől fogva nyerjen ki egy szót, mi a bekezdés, és így tovább. A különböző szoftverek ezt jobban fogják tenni, mint mások, és ez is függ a PDF készítésének módjától. Mindenesetre soha nem szabad tökéletes eredményt várnod. A kimeneti PDF-cím nem ugyanaz, mint a forrásdokumentum. Sokkal jobb megpróbálni, ha tudsz.

Az Ön problémájára vonatkozó szabványos megoldás az Adobe Acrobat Professional( a drága, nem pedig az ingyenes olvasó) használata a PDF HTML formátumba való konvertálásához. Még ez sem fog tökéletes eredményt elérni.

Van szabad szoftver, amellyel a PDF formátumú szövegekből néhány formázás megakadályozható, de mégsem várnak tökéletes eredményre. Lásd például: kaliber( RTF formátumra konvertálható), pdftohtml / pdfreflow vagy az AbiWord szövegszerkesztő( minden import / export bővítmény engedélyezve).Van egy PDF import plugin az OpenOffice-hoz.

De ne várjon tökéletességet ezen eredmények bármelyikével. Itt megy a gabona ellen. A PDF csak nem szerkeszthető beviteli formátum.

Ha nehézségei vannak annak eldöntésében, hogy melyik eszközzel kell kezdeni, a Caliber tényleges dokumentum a svájci bicska. Azt is használhatja, hogy PDF-fájlokat konvertáljon az ebook olvasóban való használatra, és megszervezze az ebookot / dokumentumtárat.

Van valami a magyarázat hozzáadásához? Hangzik ki a megjegyzésekben. Szeretne többet válaszolni a többi technikus-tudós Stack Exchange felhasználóiról? Nézze meg a teljes vitafonalat itt.