Skenování a rozpoznávání textu

Dobré odpoledne.

Pravděpodobně každý z nás se setkal s úkolem, když je třeba přeložit papírový dokument do elektronické podoby. Zvláště je často nutné dělat ty, kteří studují, pracují s dokumentací, překládají texty pomocí elektronických slovníků atd.

V tomto článku bych chtěl sdílet některé ze základů tohoto procesu. Obecně je skenování a rozpoznávání textu poměrně namáhavé, protože většina operací musí být provedena ručně. Budeme se snažit pochopit kroky, které, jak a proč.

Ne každý si okamžitě rozumí jednu věc. Po skenování (změna velikosti všech listů na skeneru) budete mít obrázky formátu BMP, JPG, PNG, GIF (mohou existovat i jiné formáty). Takže s tímto obrázkem musíte získat text - tento postup se nazývá uznání. V tomto pořadí a bude uvedeno níže.

Obsah

  • 1 1. Co potřebuji ke skenování a rozpoznání?
  • 2 2. Možnosti skenování textu
  • 3 3. Rozpoznává text dokumentu
    • 3.1 3.1 Text
    • 3.2 3.2 Obrázky
    • 3.3 3.3 Tabulky
    • 3.4 3.4 Nepotřebné položky
  • 4 4. Rozpoznávání souborů PDF / DJVU
  • 5 5. Kontrola chyb a uložení výsledků práce

1. Co potřebujete skenovat a rozpoznat?

1) Skener

Chcete-li přeložit tištěné dokumenty do textové podoby, potřebujete skener a tedy i "nativní" programy a ovladače, které s ním přicházejí. S nimi můžete naskenovat dokument a uložit jej pro další zpracování.

Můžete použít jiné analogy, ale software dodávaný se skenerem v sadě obvykle pracuje rychleji a má více možností.

V závislosti na tom, jaký typ skeneru máte - rychlost práce se může výrazně lišit. K dispozici jsou skenery, které mohou získat obraz z listu za 10 sekund. Některé z nich budou přijaty za 30 sekund. Pokud skenujete knihu na 200-300 listů - myslím, že není těžké vypočítat, kolikrát bude časový rozdíl?

2) Program pro rozpoznávání

V tomto článku vám ukážeme práci v jednom z nejlepších programů pro skenování a rozpoznání absolutně všech dokumentů - ABBYY FineReader. Protože program je zaplacen, pak okamžitě dám odkaz na druhou - jeho volnou analogovou formu Cunei. Nehodnotil bych je však srovnat, vzhledem k tomu, že FineReader vyhrává ve všech ohledech, doporučuji to ještě zkusit.

ABBYY FineReader 11

Oficiální webové stránky: http://www.abbyy.ru/

Jeden z nejlepších programů svého druhu. Je určen k rozpoznání textu na obrázku. K dispozici je mnoho možností a funkcí. Může analyzovat spoustu písem, podporuje i ručně psané verze (i když se to osobně nepokusilo, myslím, že je velmi nepravděpodobné, že rozpoznáte ručně psanou verzi, pokud nemáte dokonalý kaligrafický rukopis). Další podrobnosti o práci s ním budou popsány níže. Zde si všimneme, že článek vám poví o práci ve verzi 11 programu.

Zpravidla se různé verze programu ABBYY FineReader navzájem neliší. V tom druhém můžete snadno dělat to samé. Hlavní rozdíly mohou být v pohodlí, rychlost programu a jeho schopnosti. Například starší verze odmítají otevřít PDF a DJVU ...

3) Dokumenty pro skenování

Ano, tak jsem se rozhodl vytisknout dokumenty v samostatné krabici. Ve většině případů skenujte všechny učebnice, noviny, články, časopisy atd. ty knihy a literaturu, která je v poptávce. To je to, čeho jsem vedl? Z osobní zkušenosti mohu říci, že tolik, co chcete skenovat - možná už existuje v síti! Kolikrát jsem osobně ušetřil čas, když jsem našel tu nebo tu knihu, která byla již v síti skenována. Mohl jsem zkopírovat text pouze do dokumentu a dál pracovat s ním.

Z této jednoduché rady - než skenujete něco, zkontrolujte, zda ji někdo již naskenoval a nemusíte ztrácet čas.

2. Možnosti skenování textu

Zde nebudeme mluvit o vašich ovladačích pro skener, o programech, které se s ním vedly, protože všechny modely skeneru jsou jiné, software je také všude jiný a hádat, a ještě více, aby ukázal, jak provést operaci je nereálný.

Ve všech skenerech však existují stejné nastavení, která mohou výrazně ovlivnit rychlost a kvalitu vaší práce. To je o nich prostě a budeme mluvit tady. Seznamuji je v pořádku.

1) Kvalita skenování - DPI

Za prvé, kvalita skenování by měla být nastavena na minimálně 300 DPI. Doporučuje se, abyste dokonce dal více, pokud je to možné. Čím vyšší je hodnota DPI, tím jasněji bude váš obrázek, a tak bude další zpracování rychlejší. Kromě toho vyšší kvalita skenování - méně chyb, které budete muset později opravit.

Optimální varianta obvykle poskytuje 300-400 DPI.

2) Chromaticita

Tento parametr výrazně ovlivňuje dobu skenování (mimochodem, DPI také ovlivňuje, ale ty jsou tak silné a pouze když uživatel dává vysoké hodnoty).

Obvykle existují tři režimy:

- černobílé (ideální pro obyčejný text);

- šedá (vhodná pro text s tabulkami a obrázky);

- barva (pro barevné časopisy, knihy, obecně dokumenty, u kterých je důležitá barevnost).

Obvykle časování skenování závisí na volbě barvy. Koneckonců, pokud máte velký dokument, dokonce i další 5-10 sekund na stránce jako celek se rozlévá do slušného času ...

3) Fotky

Dokument můžete obdržet nejen skenováním, ale také fotografováním. V tomto případě budete mít zpravidla další problémy: zkreslení obrazu, rozmazané. Z tohoto důvodu může být vyžadováno delší další úprava a zpracování přijatého textu. Osobně v tomto případě nedoporučuji používat kamery.

Je důležité poznamenat, že ne každý takový dokument bude uznán; Kvalita skenování může být extrémně nízká ...

3. Rozpoznávání textu dokumentu

Budeme předpokládat, že jste získali vyhledávané naskenované stránky. Nejčastěji jsou to formáty: tif, bmb, jpg, png. Obecně platí, že pro aplikaci ABBYY FineReader není důležité ...

Po otevření snímků v programu ABBYY FineReader program automaticky začne přiřazovat oblasti a rozpoznávat je na automatickém stroji. Ale někdy to nedělá správně. Za tímto účelem zvážíme přidělení požadovaných oblastí ručně.

Důležité! Ne každý okamžitě pochopí, že po otevření dokumentu v programu se zdrojový dokument zobrazí vlevo v okně, ve kterém vyberete různé oblasti. Po kliknutí na tlačítko "rozpoznávání" se v okně vpravo zobrazí program pro vás. Po rozpoznání, mimochodem, je vhodné zkontrolovat text v případě chyby ve stejném FineReaderu.

3.1 Text

Tato oblast se používá k výběru textu. Fotografie a tabulky je třeba vyloučit. Zřídka a neobvyklé písma budou muset být zadány ručně ...

Chcete-li zvýraznit oblast textu, věnujte pozornost panelu v horní části aplikace FineReader. K dispozici je tlačítko "T" (viz obrázek níže, ukazatel myši je právě na tomto tlačítku). Klepněte na ni a v níže uvedeném obrázku vyberte úhledně obdélníkovou oblast, ve které je text umístěn. Mimochodem, v některých případech musíte vytvořit bloky textu 2-3 a někdy 10-12 na stránku, protože Formátování textu může být odlišné a jeden obdélník nerozděluje celou oblast.

Je důležité si uvědomit, že textové pole by se nemělo zobrazovat! V budoucnu vám to ušetří spoustu času ...

3.2 Obrázky

Používá se pro zvýraznění obrázků a oblastí, které jsou obtížně rozpoznatelné z důvodu špatné kvality nebo neobvyklého písma.

Na níže uvedeném snímku obrazovky je ukazatel myši na tlačítku použitém k výběru oblasti "obrázek". Mimochodem, v této oblasti můžete vybrat libovolnou část stránky a FineReader ji vloží do dokumentu později jako běžný obrázek. Tedy. jen "hloupá" kopie ...

Obvykle se tato oblast používá pro zvýraznění špatně skenovaných tabulek, pro zvýraznění nestandardního textu a písma pro vlastní obrázky.

3.3 Tabulky

Níže uvedený snímek obrazovky zobrazuje tlačítko pro výběr tabulek. Obecně se o něm osobně velmi zřídka používám. Faktem je, že budete muset rutinně kreslit (ve skutečnosti) každý řádek na stole a ukázat, co a jak programovat. Pokud je tabulka malá a ne velmi kvalitní, doporučuji pro tyto účely použít oblast "obrázek". Tím ušetříte spoustu času a můžete rychle vytvořit tabulku v aplikaci Word na základě obrázku.

3.4 Nepotřebné položky

Je důležité si uvědomit. Někdy na stránce jsou zbytečné prvky, které narušují rozpoznávání textu, nebo vůbec neumožňují vybrat požadovanou oblast. Mohou být zcela odstraněny pomocí gumy.

Chcete-li to provést, přejděte do režimu úpravy obrázků.

Vyberte nástroj "gumu" a vyberte zbytečnou oblast. Bude vymazán a na jeho místě bude bílý list papíru.

Mimochodem doporučuji, abyste tuto možnost využili co nejčastěji. Vyzkoušejte všechny textové oblasti, které jste vyzdvihli, kde nepotřebujete nějaký text, nebo existují zbytečné body, rozmazání, zkreslení - vymazání gumy. Díky tomuto rozpoznání bude rychlejší!

4. Rozpoznávání souborů PDF / DJVU

Tento formát rozpoznávání se obecně neliší od nic jiného - tj. S ním můžete pracovat stejně jako s obrázky. Jediné, co by program neměl být příliš stará verze, pokud neotevřete soubory PDF / DJVU - aktualizujte verzi na 11.

Několik rad. Po otevření dokumentu v aplikaci FineReader automaticky začne rozpoznávat dokument. Často v PDF / DJVU souborech není potřeba určitá oblast stránky v celém dokumentu! Chcete-li odstranit takovou oblast na všech stránkách, postupujte takto:

1. Přejděte do části úpravy snímků.

2. Povolte možnost oříznutí.

3. Vyberte požadovanou oblast na všech stránkách.

4. Klepněte na tlačítko aplikovat na všechny stránky a oříznout.

5. Kontrola chyb a uložení výsledků práce

Zdálo by se, že stále mohou existovat problémy, kdy byly všechny oblasti přiděleny, pak uznané - vezměte to a uložte je ... Nebylo to!

Nejprve potřebujete kontrolu dokumentu!

Chcete-li ji povolit, po rozpoznání v okně napravo, bude tlačítko "check", viz snímek obrazovky níže. Po klepnutí na něj program FineReader automaticky zobrazí ty oblasti, kde program obsahuje chyby a nemohl spolehlivě identifikovat určitý symbol. Budete si muset vybrat, buď souhlasíte s názorem programu, nebo zadejte svůj symbol.

Mimochodem, v polovině případů přibližně program vám nabídne připravené pravé slovo - budete muset zvolit správnou možnost pomocí myši.

Za druhé, po kontrole musíte zvolit formát, ve kterém uložíte výsledek vaší práce.

Zde FineReader nabízí plný obrat: můžete jednoduše přenášet informace v aplikaci Word jeden k jednomu a můžete ji uložit do jednoho z deseti formátů. Chtěl bych však zdůraznit další důležitý aspekt. Který formát by nebyl vybrán, je důležitější vybrat typ kopie! Zvažte nejzajímavější možnosti ...

Přesná kopie

Všechny oblasti, které jste vybrali na stránce v uznaném dokumentu, přesně odpovídají původnímu dokumentu. Velmi výhodnou volbou, když je důležité, abyste neztratili formátování textu. Mimochodem, fonty budou také velmi podobné originálu. Doporučuji tuto možnost odeslat dokument do aplikace Word a pokračovat tam další práce.

Upravitelná kopie

Tato možnost je dobrá, protože již máte formátovanou verzi textu. Tedy. odsazení z "kilometru", které mohlo být ve zdrojovém dokumentu - nebudete se setkat. Užitečnou možnost, pokud budete významně upravovat informace.

Není však nutné si vybrat, je-li pro vás důležité, abyste zachovali styl dekorace, písma a odrážky. Někdy, pokud rozpoznávání není příliš úspěšné - váš dokument může "sklouznout" kvůli změněnému formátování. V tomto případě je vhodné vybrat přesnou kopii.

Jednoduchý text

Možnost pro ty, kteří chtějí text se stránkou bez všeho jiného. Vhodné pro dokumenty bez obrázků a tabulek.

Tento článek o skenování a rozpoznávání dokumentu skončil. Doufám, že díky těmto jednoduchým tipům budete schopni vyřešit vaše problémy ...

Hodně štěstí!