Skandering en teksherkenning

Pin
Send
Share
Send

Goeie middag

Waarskynlik, elkeen van ons het die taak in die gesig gestaar toe dit nodig was om 'n papierdokument in elektroniese vorm te vertaal. Dit is veral nodig vir diegene wat studeer, met dokumentasie werk, tekste vertaal met behulp van elektroniese woordeboeke, ens.

In hierdie artikel wil ek graag die basiese aspekte van hierdie proses deel. In die algemeen is die skandering en herkenning van teks redelik tydrowend, want die meeste bewerkings sal met die hand gedoen moet word. Ons sal probeer uitvind wat, hoe en waarom.

Nie almal verstaan ​​dadelik een ding nie. Na skandering (al die velle op die skandeerder gepas), sal u foto's in BMP, JPG, PNG, GIF-formaat hê (daar kan ander formate wees). Dus, uit hierdie prentjie moet u die teks kry - hierdie prosedure word erkenning genoem. In hierdie volgorde is die stelling hieronder.

inhoud

  • 1. Wat is nodig vir skandering en herkenning?
  • 2. Opsies vir teksskandering
  • 3. Erkenning van die teks van die dokument
    • 3.1 Teks
    • 3.2 Prente
    • 3.3 Tabelle
    • 3.4 Onnodige items
  • 4. Erkenning van PDF / DJVU-lêers
  • 5. Kontroleer foute en stoor werksresultate

1. Wat is nodig vir skandering en herkenning?

1) Skandeerder

Om gedrukte dokumente in teks te omskep, benodig u eers 'n skandeerder en dienooreenkomstig die "inheemse" programme en drywers wat daarmee gepaard gaan. Deur dit te gebruik, kan u 'n dokument skandeer en dit stoor vir verdere verwerking.

U kan ander analoë gebruik, maar die sagteware wat saam met die skandeerder in die pakket was, werk gewoonlik vinniger en het meer opsies.

Afhangend van watter soort skandeerder jy het, kan die werkspoed aansienlik wissel. Daar is skandeerders wat binne 10 sekondes 'n foto vanaf 'n vel kan ontvang, en daar is binne 30 sekondes. As u 'n boek vir 200-300 velle skandeer - dink ek, is dit nie moeilik om te bereken hoeveel keer daar 'n tydsverskil sal wees nie?

 

2) Erkenningsprogram

In ons artikel wys ek u die werk in een van die beste programme vir die skandering en erkenning van absoluut enige dokumente - ABBYY FineReader. omdat Aangesien die program betaal is, sal ek onmiddellik 'n skakel na 'n ander een gee - die gratis analoog van Cunei Form. Weliswaar sou ek hulle nie vergelyk nie, omdat FineReader in alle opsigte wen, beveel ek dit steeds aan.

ABBYY FineReader 11

Amptelike webwerf: //www.abbyy.ru/

Een van die beste programme in sy soort. Dit is ontwerp om die teks op die foto te herken. Ingeboude baie opsies en funksies. Dit kan 'n klomp lettertipes ontleed, dit ondersteun selfs handgeskrewe opsies (alhoewel ek dit nie persoonlik probeer het nie, dink ek, dit is baie onwaarskynlik dat dit 'n handgeskrewe weergawe sal herken, tensy u 'n perfekte kalligrafiese handskrif het). Meer besonderhede oor die werk hiermee word hieronder beskryf. Hier let ons ook daarop dat daar in die artikel gepraat word oor die werk in weergawe 11-program.

In die reël verskil verskillende weergawes van ABBYY FineReader nie baie van mekaar nie. U kan maklik dieselfde doen in 'n ander een. Die belangrikste verskille kan wees in die gemak, die spoed van die program en die vermoë daarvan. Byvoorbeeld, vroeëre weergawes weier om 'n PDF en DJVU oop te maak ...

 

3) Dokumente vir skandering

Ja, ek het besluit om die dokumente in 'n aparte kolom te maak. In die meeste gevalle word sommige handboeke, koerante, artikels, tydskrifte, ens. Geskandeer. die boeke en die literatuur wat gevra word. Waarna lei ek? Uit persoonlike ervaring kan ek sê dat u waarskynlik alreeds op die netwerk skandeer! Hoeveel keer het ek persoonlik tyd bespaar toe ek 'n spesifieke boek gevind het wat reeds op die netwerk geskandeer is? Al wat ek moes doen, was om die teks in die dokument te kopieer en daarmee voort te gaan.

Hieruit 'n eenvoudige wenk - voordat u iets skandeer, kyk of iemand al geskandeer het en dat u nie u tyd hoef te mors nie.

 

2. Opsies vir teksskandering

Hier sal ek nie praat oor u drywers vir die skandeerder, die programme wat daarmee saamgaan nie, want alle modelle van skandeerders is verskillend, die sagteware is ook oral anders, en dit is onrealisties om te raai hoe u die bewerking moet uitvoer.

Maar alle skandeerders het dieselfde instellings, wat die snelheid en kwaliteit van u werk grootliks kan beïnvloed. Ons sal net hier oor hulle praat. Ek sal in volgorde lys.

1) Skandeerkwaliteit - DPI

Stel eers die skanderingskwaliteit in die opsies op ten minste 300 DPI. Dit is selfs raadsaam om meer in te stel indien moontlik. Hoe hoër die DPI-aanwyser, hoe duideliker sal u prentjie wees, en dus sal die verdere verwerking vinniger wees. Boonop, hoe hoër die kwaliteit van die skandering, hoe minder foute sal u later moet regstel.

Die beste opsie bied gewoonlik 300-400 DPI.

 

2) Kleur

Hierdie parameter beïnvloed die skandeertyd baie sterk (terloops, DPI beïnvloed ook, maar dit is so sterk, en slegs as die gebruiker hoë waardes stel).

Daar is gewoonlik drie maniere:

- swart en wit (perfek vir gewone teks);

- grys (geskik vir teks met tabelle en prente);

- kleur (vir kleurtydskrifte, boeke, in die algemeen, dokumente waar kleur belangrik is).

Tipies hang die skanderingstyd af van die keuse van kleur. Inderdaad, as u 'n groot dokument het, dan sal selfs die ekstra 5-10 sekondes op die bladsy as geheel op 'n ordentlike tyd uitstort ...

 

3) Foto's

U kan 'n dokument kry nie net deur te skandeer nie, maar ook deur dit te fotografeer. As 'n reël, sal u in hierdie geval 'n paar ander probleme ondervind: beeldvervorming, vervaging. As gevolg hiervan, kan 'n langer verdere redigering en verwerking van die ontvangde teks nodig wees. Persoonlik beveel ek nie die gebruik van kameras vir hierdie onderneming aan nie.

Dit is belangrik om daarop te let dat nie so 'n dokument erken kan word nie, omdat skandeerkwaliteit kan buitengewoon laag wees ...

 

3. Erkenning van die teks van die dokument

Ons neem aan dat u die gekoesterde geskandeerde bladsye ontvang het. Dit is meestal formate: tif, bmb, jpg, png. In die algemeen, vir ABBYY FineReader - is dit nie baie belangrik nie ...

Nadat u 'n foto in ABBYY FineReader oopgemaak het, kies die program in die reël gebiede outomaties en herken hulle dit op die masjien. Maar soms doen sy dit verkeerd. Hiervoor sal ons die keuse van die nodige gebiede met die hand oorweeg.

Belangrik! Nie almal verstaan ​​onmiddellik dat die brondokument na die opening van 'n dokument in die program in die linkervenster vertoon word waarin u verskillende gebiede kies nie. Nadat u op die "herkenning" -knoppie geklik het, wys die program in die venster aan die regterkant die voltooide teks. Na erkenning, is dit raadsaam om die teks na te gaan vir foute in dieselfde FineReader.

 

3.1 Teks

Hierdie gebied word gebruik om teks uit te lig. Foto's en tabelle moet hiervan uitgesluit word. Skaars en ongewone lettertipes moet met die hand ingevoer word ...

Let op die paneel aan die bokant van FineReader om 'n teksarea te kies. Daar is 'n knoppie "T" (sien die skermkiekie hieronder, die muiswyser is net op hierdie knoppie). Klik daarop en kies dan die netjies reghoekige area waarin die teks geleë is, in die prent hieronder. Terloops, in sommige gevalle moet u teksblokke van 2-3 en soms 10-12 per bladsy skep, want teksformatering kan anders wees en een reghoek kies nie die hele gebied nie.

Dit is belangrik om daarop te let dat beelde nie binne die teksarea moet val nie! Dit sal u in die toekoms baie tyd bespaar ...

3.2 Prente

Word gebruik om beelde en gebiede uit te lig wat weens swak gehalte of ongewone lettertipes moeilik is om te herken.

In die onderstaande skermkiekie is die muisaanwyser geleë op die knoppie wat gebruik word om die gebied "prentjie" te kies. Terloops, in hierdie gebied kan u absoluut enige deel van die bladsy kies, en FineReader plaas dit dan as 'n normale prentjie in die dokument. dit wil sê net 'dom' kopie ...

Gewoonlik word hierdie gebied gebruik om tabelle wat swak geskandeer is te belig, om nie-standaard teks en lettertipes, op sigself prente uit te lig.

3.3 Tabelle

Die skermkiekie hieronder toon 'n knoppie om tabelle uit te lig. Oor die algemeen gebruik ek dit persoonlik baie selde. Die feit is dat u elke reël op die tafel gereeld moet teken (in werklikheid) en moet wys wat en hoe om die program te doen. As die tafel klein is en van nie baie goeie gehalte is nie, beveel ek aan dat u die "prentjie-area" vir hierdie doeleindes gebruik. Bespaar dus baie tyd, en die tabel kan dan vinnig in Word gemaak word op grond van die foto.

 

3.4 Onnodige items

Dit is belangrik om daarop te let. Soms is daar onnodige elemente op die bladsy wat die herkenning van die teks belemmer, of selfs verhoed dat u die gewenste gebied uitlig. Dit kan heeltemal met die gom verwyder word.

Gaan na die beeldbewerkingsmodus om dit te doen.

 

 

Kies die uitveërhulpmiddel en kies die onnodige area. Dit sal uitgevee word en 'n wit vel papier sal op sy plek wees.

 

Terloops, ek beveel aan dat u hierdie opsie so gereeld as moontlik gebruik. Probeer al die teksareas wat u gekies het, waar u nie 'n stuk teks nodig het nie, of onnodige kolletjies, vervaging, vervorming aanwesig is - verwyder dit met 'n uitveër. Danksy hierdie, sal die erkenning vinniger wees!

 

4. Erkenning van PDF / DJVU-lêers

Oor die algemeen sal hierdie herkenningsformaat nie van die res verskil nie - d.w.s. jy kan daarmee werk net soos met foto's. Die enigste ding is dat die program nie te oud moet wees as die PDF / DJVU-lêers nie vir u oopmaak nie - opgradeer na weergawe 11.

 

'N Klein wenk. Nadat u die dokument in FineReader oopgemaak het, sal dit outomaties begin herken. In PDF / DJVU-lêers word 'n spesifieke gedeelte van die bladsy nie dwarsdeur die dokument nodig nie! Om so 'n gebied op alle bladsye te verwyder, doen die volgende:

1. Gaan na die beeldbewerkingsafdeling.

2. Skakel die "gewas" -opsie aan.

3. Kies die gebied wat u op alle bladsye wil hê.

4. Klik toepas op alle bladsye en sny.

5. Kontroleer foute en stoor werksresultate

Dit wil voorkom asof daar steeds probleme kan wees wanneer alle gebiede uitgelig is en dan herken word - neem dit en stoor dit ... Daar was dit!

Eerstens het u 'n dokumentkontrole nodig!

Om dit te herken, sal daar in die venster aan die regterkant van die venster 'n "check" -knoppie wees, sien die onderstaande skermkiekie. Nadat u daarop geklik het, sal die FineReader-program outomaties die gebiede toon waar die program foute het, en dit kon nie 'n spesifieke karakter betroubaar identifiseer nie. U hoef net te kies, óf u stem saam met die mening van die program, of voer u karakter in.

Terloops, in die helfte van die gevalle, ongeveer, bied die program u 'n gereedgemaakte korrekte woord - u moet net die nodige opsie met die muis kies.

 

Tweedens moet u, nadat u dit nagegaan het, die formaat kies waarin u die resultaat van u werk stoor.

Hier laat FineReader u tot die uiterste toe: u kan eenvoudig inligting een na een in Word oordra, of u kan dit in een van dosyne formate stoor. Maar ek wil graag 'n ander belangrike aspek uitlig. Ongeag die formaat wat u kies, dit is belangriker om die tipe kopie te kies! Oorweeg die interessantste opsies ...

Presiese kopie

Alle gebiede wat u op die bladsy in die erkende dokument uitgelig het, sal presies ooreenstem met die oorspronklike dokument. 'N Baie maklike opsie as dit vir u belangrik is om nie die formatering van die teks te verloor nie. Terloops, lettertipes sal ook baie ooreenstem met die oorspronklike. Met hierdie opsie beveel ek aan dat u die dokument na Word oordra, sodat daar verder met die werk voortgegaan kan word.

Bewerkbare kopie

Hierdie opsie is goed deurdat u 'n reeds geformatteerde weergawe van die teks kry. dit wil sê inspringing met "kilometer", wat moontlik in die brondokument was - u sal nie ontmoet nie. Nuttige opsie wanneer u die inligting aansienlik sal wysig.

Dit is waar dat u nie moet kies of dit belangrik is om die ontwerpstyl, lettertipes, insprente te bewaar nie. Soms, as erkenning nie baie suksesvol is nie, kan u dokument “skeef” as gevolg van die veranderde formatering. In hierdie geval is dit raadsaam om die presiese eksemplaar te kies.

Gewone teks

'N Opsie vir diegene wat net teks vanaf 'n bladsy nodig het sonder alles anders. Geskik vir dokumente sonder foto's en tabelle.

 

In hierdie artikel het die skandering en erkenning van 'n dokument tot 'n einde gekom. Ek hoop dat u met hierdie eenvoudige wenke u probleme kan oplos ...

Sterkte

Pin
Send
Share
Send