Platypus: Een Algemeen Specialistisch Model voor het Lezen van Tekst in Diverse Vormen

Samenvatting

Het lezen van tekst uit afbeeldingen (zowel natuurlijke scènes als documenten) is al decennialang een belangrijk onderzoeksonderwerp, vanwege de hoge technische uitdaging en het brede toepassingsbereik. Voorheen werden individuele gespecialiseerde modellen ontwikkeld om de deel taken van tekstlezen aan te pakken (bijvoorbeeld herkenning van tekst in scènes, handgeschreven tekstherkenning en herkenning van wiskundige uitdrukkingen). Dergelijke gespecialiseerde modellen kunnen echter meestal niet effectief generaliseren over verschillende deel taken. Recentelijk hebben generalistische modellen (zoals GPT-4V), getraind op enorme hoeveelheden data op een uniforme manier, enorm potentieel getoond in het lezen van tekst in diverse scenario's, maar met de nadelen van beperkte nauwkeurigheid en lage efficiëntie. In dit werk stellen we Platypus voor, een gegeneraliseerd gespecialiseerd model voor tekstlezen. Specifiek combineert Platypus het beste van beide werelden: het kan tekst van verschillende vormen herkennen met een enkele uniforme architectuur, terwijl het uitstekende nauwkeurigheid en hoge efficiëntie bereikt. Om het voordeel van Platypus beter te benutten, hebben we ook een tekstleesdataset (genaamd Worms) samengesteld, waarvan de afbeeldingen zijn geselecteerd uit eerdere datasets en gedeeltelijk opnieuw gelabeld. Experimenten op standaard benchmarks demonstreren de effectiviteit en superioriteit van het voorgestelde Platypus-model. Het model en de data zullen publiekelijk beschikbaar worden gemaakt op https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypus.

English

Reading text from images (either natural scenes or documents) has been a long-standing research topic for decades, due to the high technical challenge and wide application range. Previously, individual specialist models are developed to tackle the sub-tasks of text reading (e.g., scene text recognition, handwritten text recognition and mathematical expression recognition). However, such specialist models usually cannot effectively generalize across different sub-tasks. Recently, generalist models (such as GPT-4V), trained on tremendous data in a unified way, have shown enormous potential in reading text in various scenarios, but with the drawbacks of limited accuracy and low efficiency. In this work, we propose Platypus, a generalized specialist model for text reading. Specifically, Platypus combines the best of both worlds: being able to recognize text of various forms with a single unified architecture, while achieving excellent accuracy and high efficiency. To better exploit the advantage of Platypus, we also construct a text reading dataset (called Worms), the images of which are curated from previous datasets and partially re-labeled. Experiments on standard benchmarks demonstrate the effectiveness and superiority of the proposed Platypus model. Model and data will be made publicly available at https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypus.

Platypus: Een Algemeen Specialistisch Model voor het Lezen van Tekst in Diverse Vormen

Platypus: A Generalized Specialist Model for Reading Text in Various Forms

Samenvatting

Support