Schnabeltier: Ein generalisiertes Spezialistenmodell zum Lesen von Text in verschiedenen Formen
Platypus: A Generalized Specialist Model for Reading Text in Various Forms
August 27, 2024
Autoren: Peng Wang, Zhaohai Li, Jun Tang, Humen Zhong, Fei Huang, Zhibo Yang, Cong Yao
cs.AI
Zusammenfassung
Das Lesen von Texten aus Bildern (entweder natürlichen Szenen oder Dokumenten) ist seit Jahrzehnten ein langjähriges Forschungsthema aufgrund der hohen technischen Herausforderung und des breiten Anwendungsbereichs. Früher wurden einzelne Spezialmodelle entwickelt, um die Teilaufgaben des Textlesens zu bewältigen (z. B. Szenentexterkennung, Handschrifterkennung und mathematische Ausdruckserkennung). Solche Spezialmodelle können jedoch in der Regel nicht effektiv über verschiedene Teilaufgaben generalisieren. In letzter Zeit haben Generalistenmodelle (wie z. B. GPT-4V), die auf umfangreichen Daten auf einheitliche Weise trainiert wurden, ein enormes Potenzial beim Lesen von Texten in verschiedenen Szenarien gezeigt, jedoch mit den Nachteilen einer begrenzten Genauigkeit und geringen Effizienz. In dieser Arbeit schlagen wir Platypus vor, ein generalisiertes Spezialmodell für das Textlesen. Speziell kombiniert Platypus das Beste aus beiden Welten: Es ist in der Lage, Texte verschiedener Formen mit einer einzigen vereinheitlichten Architektur zu erkennen und dabei eine ausgezeichnete Genauigkeit und hohe Effizienz zu erreichen. Um den Vorteil von Platypus besser auszunutzen, erstellen wir auch einen Textlese-Datensatz (genannt Worms), dessen Bilder aus früheren Datensätzen kuratiert und teilweise neu beschriftet wurden. Experimente an Standard-Benchmarks zeigen die Wirksamkeit und Überlegenheit des vorgeschlagenen Platypus-Modells. Modell und Daten werden öffentlich verfügbar gemacht unter https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypus.
English
Reading text from images (either natural scenes or documents) has been a
long-standing research topic for decades, due to the high technical challenge
and wide application range. Previously, individual specialist models are
developed to tackle the sub-tasks of text reading (e.g., scene text
recognition, handwritten text recognition and mathematical expression
recognition). However, such specialist models usually cannot effectively
generalize across different sub-tasks. Recently, generalist models (such as
GPT-4V), trained on tremendous data in a unified way, have shown enormous
potential in reading text in various scenarios, but with the drawbacks of
limited accuracy and low efficiency. In this work, we propose Platypus, a
generalized specialist model for text reading. Specifically, Platypus combines
the best of both worlds: being able to recognize text of various forms with a
single unified architecture, while achieving excellent accuracy and high
efficiency. To better exploit the advantage of Platypus, we also construct a
text reading dataset (called Worms), the images of which are curated from
previous datasets and partially re-labeled. Experiments on standard benchmarks
demonstrate the effectiveness and superiority of the proposed Platypus model.
Model and data will be made publicly available at
https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypus.Summary
AI-Generated Summary