Platypus: Een Algemeen Specialistisch Model voor het Lezen van Tekst in Diverse Vormen
Platypus: A Generalized Specialist Model for Reading Text in Various Forms
August 27, 2024
Auteurs: Peng Wang, Zhaohai Li, Jun Tang, Humen Zhong, Fei Huang, Zhibo Yang, Cong Yao
cs.AI
Samenvatting
Het lezen van tekst uit afbeeldingen (zowel natuurlijke scènes als documenten) is al decennialang een belangrijk onderzoeksonderwerp, vanwege de hoge technische uitdaging en het brede toepassingsbereik. Voorheen werden individuele gespecialiseerde modellen ontwikkeld om de deel taken van tekstlezen aan te pakken (bijvoorbeeld herkenning van tekst in scènes, handgeschreven tekstherkenning en herkenning van wiskundige uitdrukkingen). Dergelijke gespecialiseerde modellen kunnen echter meestal niet effectief generaliseren over verschillende deel taken. Recentelijk hebben generalistische modellen (zoals GPT-4V), getraind op enorme hoeveelheden data op een uniforme manier, enorm potentieel getoond in het lezen van tekst in diverse scenario's, maar met de nadelen van beperkte nauwkeurigheid en lage efficiëntie. In dit werk stellen we Platypus voor, een gegeneraliseerd gespecialiseerd model voor tekstlezen. Specifiek combineert Platypus het beste van beide werelden: het kan tekst van verschillende vormen herkennen met een enkele uniforme architectuur, terwijl het uitstekende nauwkeurigheid en hoge efficiëntie bereikt. Om het voordeel van Platypus beter te benutten, hebben we ook een tekstleesdataset (genaamd Worms) samengesteld, waarvan de afbeeldingen zijn geselecteerd uit eerdere datasets en gedeeltelijk opnieuw gelabeld. Experimenten op standaard benchmarks demonstreren de effectiviteit en superioriteit van het voorgestelde Platypus-model. Het model en de data zullen publiekelijk beschikbaar worden gemaakt op https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypus.
English
Reading text from images (either natural scenes or documents) has been a
long-standing research topic for decades, due to the high technical challenge
and wide application range. Previously, individual specialist models are
developed to tackle the sub-tasks of text reading (e.g., scene text
recognition, handwritten text recognition and mathematical expression
recognition). However, such specialist models usually cannot effectively
generalize across different sub-tasks. Recently, generalist models (such as
GPT-4V), trained on tremendous data in a unified way, have shown enormous
potential in reading text in various scenarios, but with the drawbacks of
limited accuracy and low efficiency. In this work, we propose Platypus, a
generalized specialist model for text reading. Specifically, Platypus combines
the best of both worlds: being able to recognize text of various forms with a
single unified architecture, while achieving excellent accuracy and high
efficiency. To better exploit the advantage of Platypus, we also construct a
text reading dataset (called Worms), the images of which are curated from
previous datasets and partially re-labeled. Experiments on standard benchmarks
demonstrate the effectiveness and superiority of the proposed Platypus model.
Model and data will be made publicly available at
https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypus.Summary
AI-Generated Summary