Schnabeltier: Ein generalisiertes Spezialistenmodell zum Lesen von Text in verschiedenen Formen

papers.abstract

Das Lesen von Texten aus Bildern (entweder natürlichen Szenen oder Dokumenten) ist seit Jahrzehnten ein langjähriges Forschungsthema aufgrund der hohen technischen Herausforderung und des breiten Anwendungsbereichs. Früher wurden einzelne Spezialmodelle entwickelt, um die Teilaufgaben des Textlesens zu bewältigen (z. B. Szenentexterkennung, Handschrifterkennung und mathematische Ausdruckserkennung). Solche Spezialmodelle können jedoch in der Regel nicht effektiv über verschiedene Teilaufgaben generalisieren. In letzter Zeit haben Generalistenmodelle (wie z. B. GPT-4V), die auf umfangreichen Daten auf einheitliche Weise trainiert wurden, ein enormes Potenzial beim Lesen von Texten in verschiedenen Szenarien gezeigt, jedoch mit den Nachteilen einer begrenzten Genauigkeit und geringen Effizienz. In dieser Arbeit schlagen wir Platypus vor, ein generalisiertes Spezialmodell für das Textlesen. Speziell kombiniert Platypus das Beste aus beiden Welten: Es ist in der Lage, Texte verschiedener Formen mit einer einzigen vereinheitlichten Architektur zu erkennen und dabei eine ausgezeichnete Genauigkeit und hohe Effizienz zu erreichen. Um den Vorteil von Platypus besser auszunutzen, erstellen wir auch einen Textlese-Datensatz (genannt Worms), dessen Bilder aus früheren Datensätzen kuratiert und teilweise neu beschriftet wurden. Experimente an Standard-Benchmarks zeigen die Wirksamkeit und Überlegenheit des vorgeschlagenen Platypus-Modells. Modell und Daten werden öffentlich verfügbar gemacht unter https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypus.

English

Reading text from images (either natural scenes or documents) has been a long-standing research topic for decades, due to the high technical challenge and wide application range. Previously, individual specialist models are developed to tackle the sub-tasks of text reading (e.g., scene text recognition, handwritten text recognition and mathematical expression recognition). However, such specialist models usually cannot effectively generalize across different sub-tasks. Recently, generalist models (such as GPT-4V), trained on tremendous data in a unified way, have shown enormous potential in reading text in various scenarios, but with the drawbacks of limited accuracy and low efficiency. In this work, we propose Platypus, a generalized specialist model for text reading. Specifically, Platypus combines the best of both worlds: being able to recognize text of various forms with a single unified architecture, while achieving excellent accuracy and high efficiency. To better exploit the advantage of Platypus, we also construct a text reading dataset (called Worms), the images of which are curated from previous datasets and partially re-labeled. Experiments on standard benchmarks demonstrate the effectiveness and superiority of the proposed Platypus model. Model and data will be made publicly available at https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypus.

Schnabeltier: Ein generalisiertes Spezialistenmodell zum Lesen von Text in verschiedenen Formen

Platypus: A Generalized Specialist Model for Reading Text in Various Forms

papers.abstract

Support