ChatPaper.aiChatPaper

Ornitorinco: Un Modello Specialistico Generalizzato per la Lettura di Testo in Diverse Forme

Platypus: A Generalized Specialist Model for Reading Text in Various Forms

August 27, 2024
Autori: Peng Wang, Zhaohai Li, Jun Tang, Humen Zhong, Fei Huang, Zhibo Yang, Cong Yao
cs.AI

Abstract

Lettura del testo da immagini (sia scene naturali che documenti) è un argomento di ricerca consolidato da decenni, a causa dell'alta sfida tecnica e dell'ampio campo di applicazione. In passato, venivano sviluppati modelli specialistici individuali per affrontare le sottoattività della lettura del testo (ad esempio, riconoscimento del testo in scene, riconoscimento del testo scritto a mano e riconoscimento di espressioni matematiche). Tuttavia, tali modelli specialistici di solito non riescono a generalizzare efficacemente tra diverse sottoattività. Recentemente, modelli generalisti (come GPT-4V), addestrati su enormi quantità di dati in modo unificato, hanno mostrato un enorme potenziale nella lettura del testo in vari scenari, ma con gli svantaggi di una precisione limitata e una bassa efficienza. In questo lavoro, proponiamo Platypus, un modello specialistico generalizzato per la lettura del testo. In particolare, Platypus combina il meglio di entrambi i mondi: essere in grado di riconoscere testi di varie forme con un'unica architettura unificata, ottenendo nel contempo un'eccellente precisione e un'alta efficienza. Per sfruttare al meglio il vantaggio di Platypus, costruiamo anche un dataset di lettura del testo (chiamato Worms), le immagini del quale sono selezionate da dataset precedenti e parzialmente rietichettate. Gli esperimenti su benchmark standard dimostrano l'efficacia e la superiorità del modello Platypus proposto. Il modello e i dati saranno resi pubblicamente disponibili su https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypus.
English
Reading text from images (either natural scenes or documents) has been a long-standing research topic for decades, due to the high technical challenge and wide application range. Previously, individual specialist models are developed to tackle the sub-tasks of text reading (e.g., scene text recognition, handwritten text recognition and mathematical expression recognition). However, such specialist models usually cannot effectively generalize across different sub-tasks. Recently, generalist models (such as GPT-4V), trained on tremendous data in a unified way, have shown enormous potential in reading text in various scenarios, but with the drawbacks of limited accuracy and low efficiency. In this work, we propose Platypus, a generalized specialist model for text reading. Specifically, Platypus combines the best of both worlds: being able to recognize text of various forms with a single unified architecture, while achieving excellent accuracy and high efficiency. To better exploit the advantage of Platypus, we also construct a text reading dataset (called Worms), the images of which are curated from previous datasets and partially re-labeled. Experiments on standard benchmarks demonstrate the effectiveness and superiority of the proposed Platypus model. Model and data will be made publicly available at https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypus.
PDF152November 16, 2024