Select Page

Expertise voor het ontsluiten van archieven

ALTO XML

ALTO XML Data conversie

EasyData converteert iedere digitale afbeelding naar het in de archief en bibliotheek wereld geaccepteerde ALTO XML formaat. Hierdoor wordt de content van je organisatie toegankelijk voor het brede publiek. Je content wordt met onze OCR-technologie betaalbaar beter herkend en is meteen doorzoekbaar in PDF formaat en professioneel ontsloten via de ALTO XML standaard.

Export naar ALTO XML

XML ALTO

Op deze site staat ellders al het een en ander over XML uitgelegd. Een ander formaat XML dat in de archiefwereld veel gebruikt wordt is het XML ALTO formaat. ALTO is een XML-schema dat metadata bevat voor het beschrijven van lay-out en de inhoud van tekstuele bronnen, denk aan boeken of kranten.  De standaard is in eerste instantie ontwikkeld voor de beschrijving van de tekst OCR en lay-out informatie voor gedigitaliseerd materiaal. In gewone mensentaal, alle tekst en content is beschreven.

ALTO XML in de praktijk

ALTO XML in de praktijk

ALTO XML biedt een XML-codering die tekst en afbeeldingen van documenten opslaat met de afbeeldingscoördinaten die overeenkomen met de tekst. Zo kan een gebruiker de volledige originele pagina afgebeeld zien in de browser. Vandaar kan de gebruiker inzoomen op de tekst of kleinere afbeeldingen.

De ALTO XML tekst en afbeeldingscoördinaten maken dat mogelijk. EasyData heeft voor de uitvoering van deze data conversie een praktische SAAS oplossing gerealiseerd die aansluit bij onze visie over Business Process Management

Van PDF naar XML

Data conversie

EasyData heeft XML ALTO productie bereikbaar gemaakt voor grote en kleine collecties. Onze data conversie methode is schaalbaar. EasyData kan verschillende technieken inzetten. Die technieken zijn toegespitst op de project wensen en eisen. We zien dat deze benadering naast kostenreductie ook een beter resultaat opleveren.

Zo variëren we bij Data conversie in de OCR en pagina segmentatie technologie op basis van de aanvraag. Hiermee komen ‘verborgen ALTO fouten‘ zoals onze concurrenten ervaren te vervallen.

Werkproces wordt geautomatiseerd

Automatische data conversie

EasyData XML ALTO data conversie werkt in principe altijd automatisch. Onze XML ALTO data conversie maakt ALTO XML productie bereikbaar voor grote en kleine collecties. Hiermee worden niet alleen de data conversie kosten gedrukt, het resultaat komt ook sneller beschikbaar. EasyData gebruikt verschillende Machine Learning netwerken om de kwaliteit van automatische dataverwerking te borgen. Met bijvoorbeeld een Grafana dashboard kan de opdrachtgever zelf het proces volgen. Zeker bij grotere projecten is dat een interessante bijkomstigheid die aan de kant van projectmanagement op prijs wordt gesteld. Met deze visuele waarneming wordt je Digitale Transformatie traject inzichtelijk.

Export naar ALTO XML
Export naar ALTO XML

Cloud OCR en XML ALTO Export

De OCR Cloud maakt gebruik van verschillende Machine Learning algoritmen. Die afzonderlijke netwerken vormen samen technologie die zich het beste als kunstmatige intelligentie laat beschrijven. EasyData is daar niet uniek in. Je ziet in algemene zin een toename van OCR-technologie naar Machine Learing Netwerken en een verschuiving naar Cloud OCR dienstverlening. Onze opdrachtgevers zien die ontwikkelingen ook en overwegen steeds vaker hun reeds gedigitaliseerde archief opnieuw via een Cloud OCR dienst te herkennen.
Met als doel een veel beter OCR-resultaat. Dat resultaat komt dan ook nog eens tot stand via een Online OCR dienst,
geen gedoe met dure hardware en on premisse installaties!

Sneller tekst laden met ALTO XML OCR

Dat maakt dat als je op een website bent voor een kranten archief je net als bij Google Earth kan inzoomen. Van de hele krantenpagina tot die kleine overlijdensadvertentie van je overgrootvader waar je naar op zoek bent. Die zoom technologie wordt mogelijk gemaakt door de ALTO XML structuur. Zonder die ALTO techniek zou zo’n complete pagina een enorm groot bestand zijn. Dat maakt het laden van de pagina een eindeloos langdradig proces. Stel je voor dat Google Earth alle data van de complete wereldbol op straatniveau in de browser moet tonen. Dat gaat niet en zodoende is het afgesproken ALTO XML formaat voor de archiefwereld een uitkomst.