PDF do “normalnego” tekstu, polskie litery i inne…

No Comments

Po długiej przerwie powracam na chwilę z rozwiązaniem małego, bieżącego problemu. Załóżmy, że mamy PDFa. Załóżmy, że chcemy z niego wyciągnąć tekst i zapisać w formacie np. wordowskim. Załóżmy, że PDF nie jest zabezpieczony.
Jeśli mamy dostęp do Acrobata, robimy eksport do RTF i spokój. NOT…
Eksport zazwyczaj wysypie wszystko, co się da. Tak to już jest z produktami Adobe :)
No dobrze, ale załóżmy, że mamy dostęp tylko do Adobe Readera. Jest darmowy.

Sprawa jest prosta, w większości przypadków wystarczy “Zapisz jako tekst”

Z reguły polskie litery wychodzą w porządku, po otworzeniu TXTu w Wordzie z zaznaczeniem standardu Windows (CP-1250). Gdyby wychodziły krzaczki, należy odpowiednie znaki zastąpić polskimi literami. Innej rady nie ma.

Najpierw warto przyjrzeć się podziałom. No bo jaktotak, czcionkę zmienię i już akapit kończy mi się w połowie strony? A fe…

Edycja->Zamień. Wybieramy “Więcej”, zaznaczamy “Użyj symboli wieloznacznych”, po czym zamieniamy ^m (podział strony/sekcji) na ^l (ręczny podział wiersza). Załatwione.

Teraz problem jest z podziałem wierszy. Reader zapisuje tekst tak, że każda linia tekstu ma swój osobny znak końca wiersza. Co owocuje niesympatycznymi kwiatkami – kończeniem się tekstu w połowie szerokości strony lub w ogóle nie-wiadomo-gdzie w przypadku zmiany rozmiaru czcionki, niemożnością wyjustowania etc.

AKTUALIZACJA: poprzedni przepis został zmieniony po kilku próbach.
Zachowując tę samą procedurę, zamieniamy::

  • ^013 (znak końca linii) na ^l (ręczny podział wiersza) – ujednolica to późniejsze zamiany
  • (do skutku)  ^l (spacja i ręczny podział wiersza) na ^l (sam ręczny podział wiersza) – również ku ujednoliceniu końców wiersza
  • jeśli zajdzie potrzeba, do skutku ^l^l([a-ż]) (podwójny znak podziału wiersza poprzedzający małą literę) na  \1 (spacja i ta litera)
  • ([!.])^l([a-ż]) (znak nie będący kropką, podział wiersza i mała litera) na \1 \2 (ów znak, spację i literę)

W przypadku wyższej konieczności, można też sztucznie wydzielone akapity zamienić na nowe linie. Czyli ^l^l na ^l.

W ten sposób otrzymujemy tekst w miarę gotowy do pracy i dalszego formatowania. Czego sobie i Wam życzę.

UWAGA: Ta recepta nie formatuje poprawnie przypadków zawierających sztuczny koniec wiersza (bez kropki), a w następnym wyraz zaczynający się od dużej litery. Albo-albo. Gdyby obejmowała takie rzeczy, wtedy podtytuły nie zawierające kropek byłyby zbliżane do tekstu.

Categories: Software Tags: Tagi:, , , , ,

Leave a Reply

Your email address will not be published. Required fields are marked *