Algemene OCR-theorie: Naar OCR-2.0 via een geïntegreerd end-to-end modelGeneral OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model
Traditionele OCR-systemen (OCR-1.0) zijn steeds minder in staat om aan het gebruik van mensen te voldoen vanwege de groeiende vraag naar intelligente verwerking van door mensen gemaakte optische tekens. In dit artikel verwijzen we collectief naar alle kunstmatige optische signalen (bijvoorbeeld platte tekst, wiskundige/moleculaire formules, tabellen, grafieken, bladmuziek en zelfs geometrische vormen) als "tekens" en stellen we de Algemene OCR-theorie voor, samen met een uitstekend model, namelijk GOT, om de komst van OCR-2.0 te bevorderen. De GOT, met 580M parameters, is een uniform, elegant en end-to-end model, bestaande uit een encoder met hoge compressie en een decoder met lange contexten. Als een OCR-2.0-model kan GOT alle bovengenoemde "tekens" verwerken onder verschillende OCR-taken. Aan de invoerkant ondersteunt het model veelgebruikte scène- en documentstijlafbeeldingen in slice- en hele-pagina-stijlen. Aan de uitvoerkant kan GOT eenvoudige of opgemaakte resultaten (markdown/tikz/smiles/kern) genereren via een eenvoudige prompt. Daarnaast beschikt het model over interactieve OCR-functies, zoals herkenning op regioniveau geleid door coördinaten of kleuren. Verder passen we ook dynamische resolutie en OCR-technologie voor meerdere pagina's aan GOT aan voor een betere praktische bruikbaarheid. In experimenten leveren we voldoende resultaten om de superioriteit van ons model aan te tonen.