ChatPaper.aiChatPaper

Платипус: Обобщенная специализированная модель для чтения текста в различных формах

Platypus: A Generalized Specialist Model for Reading Text in Various Forms

August 27, 2024
Авторы: Peng Wang, Zhaohai Li, Jun Tang, Humen Zhong, Fei Huang, Zhibo Yang, Cong Yao
cs.AI

Аннотация

Чтение текста с изображений (как естественных сцен, так и документов) является долговременной темой исследований на протяжении десятилетий из-за высокой технической сложности и широкого спектра применения. Ранее разрабатывались отдельные специализированные модели для решения подзадач чтения текста (например, распознавание текста на сцене, распознавание рукописного текста и распознавание математических выражений). Однако такие специализированные модели обычно не могут эффективно обобщаться на различные подзадачи. Недавно обобщенные модели (такие как GPT-4V), обученные на огромных данных единым способом, показали огромный потенциал в чтении текста в различных сценариях, но с недостатками ограниченной точности и низкой эффективности. В данной работе мы предлагаем Platypus, обобщенную специализированную модель для чтения текста. Конкретно, Platypus объединяет лучшее из обоих миров: способность распознавать текст различных форм с помощью единой архитектуры, обеспечивая при этом отличную точность и высокую эффективность. Для более полного использования преимуществ Platypus мы также создаем набор данных для чтения текста (названный Worms), изображения для которого отобраны из предыдущих наборов данных и частично переопределены. Эксперименты на стандартных бенчмарках демонстрируют эффективность и превосходство предложенной модели Platypus. Модель и данные будут общедоступны по адресу https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypus.
English
Reading text from images (either natural scenes or documents) has been a long-standing research topic for decades, due to the high technical challenge and wide application range. Previously, individual specialist models are developed to tackle the sub-tasks of text reading (e.g., scene text recognition, handwritten text recognition and mathematical expression recognition). However, such specialist models usually cannot effectively generalize across different sub-tasks. Recently, generalist models (such as GPT-4V), trained on tremendous data in a unified way, have shown enormous potential in reading text in various scenarios, but with the drawbacks of limited accuracy and low efficiency. In this work, we propose Platypus, a generalized specialist model for text reading. Specifically, Platypus combines the best of both worlds: being able to recognize text of various forms with a single unified architecture, while achieving excellent accuracy and high efficiency. To better exploit the advantage of Platypus, we also construct a text reading dataset (called Worms), the images of which are curated from previous datasets and partially re-labeled. Experiments on standard benchmarks demonstrate the effectiveness and superiority of the proposed Platypus model. Model and data will be made publicly available at https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypus.

Summary

AI-Generated Summary

PDF152November 16, 2024