ChatPaper.aiChatPaper

Ornithorynque : Un modèle spécialisé généralisé pour la lecture de texte sous diverses formes

Platypus: A Generalized Specialist Model for Reading Text in Various Forms

August 27, 2024
Auteurs: Peng Wang, Zhaohai Li, Jun Tang, Humen Zhong, Fei Huang, Zhibo Yang, Cong Yao
cs.AI

Résumé

La lecture de texte à partir d'images (qu'il s'agisse de scènes naturelles ou de documents) est un sujet de recherche de longue date depuis des décennies, en raison du défi technique élevé et de la large gamme d'applications. Auparavant, des modèles spécialisés individuels étaient développés pour aborder les sous-tâches de la lecture de texte (par exemple, la reconnaissance de texte de scène, la reconnaissance de texte manuscrit et la reconnaissance d'expressions mathématiques). Cependant, de tels modèles spécialisés ne peuvent généralement pas généraliser efficacement à travers différentes sous-tâches. Récemment, des modèles généralistes (comme GPT-4V), formés sur d'énormes données de manière unifiée, ont montré un énorme potentiel dans la lecture de texte dans divers scénarios, mais avec les inconvénients d'une précision limitée et d'une faible efficacité. Dans ce travail, nous proposons Platypus, un modèle spécialisé généralisé pour la lecture de texte. Plus précisément, Platypus combine le meilleur des deux mondes : il est capable de reconnaître du texte de diverses formes avec une seule architecture unifiée, tout en atteignant une excellente précision et une haute efficacité. Pour mieux exploiter l'avantage de Platypus, nous construisons également un ensemble de données de lecture de texte (appelé Worms), dont les images sont sélectionnées dans des ensembles de données précédents et partiellement re-étiquetées. Des expériences sur des benchmarks standard démontrent l'efficacité et la supériorité du modèle Platypus proposé. Le modèle et les données seront rendus publiquement disponibles sur https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypus.
English
Reading text from images (either natural scenes or documents) has been a long-standing research topic for decades, due to the high technical challenge and wide application range. Previously, individual specialist models are developed to tackle the sub-tasks of text reading (e.g., scene text recognition, handwritten text recognition and mathematical expression recognition). However, such specialist models usually cannot effectively generalize across different sub-tasks. Recently, generalist models (such as GPT-4V), trained on tremendous data in a unified way, have shown enormous potential in reading text in various scenarios, but with the drawbacks of limited accuracy and low efficiency. In this work, we propose Platypus, a generalized specialist model for text reading. Specifically, Platypus combines the best of both worlds: being able to recognize text of various forms with a single unified architecture, while achieving excellent accuracy and high efficiency. To better exploit the advantage of Platypus, we also construct a text reading dataset (called Worms), the images of which are curated from previous datasets and partially re-labeled. Experiments on standard benchmarks demonstrate the effectiveness and superiority of the proposed Platypus model. Model and data will be made publicly available at https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypus.

Summary

AI-Generated Summary

PDF152November 16, 2024