ChatPaper.aiChatPaper

Ornitorrinco: Um Modelo Especialista Generalizado para Leitura de Texto em Diferentes Formatos

Platypus: A Generalized Specialist Model for Reading Text in Various Forms

August 27, 2024
Autores: Peng Wang, Zhaohai Li, Jun Tang, Humen Zhong, Fei Huang, Zhibo Yang, Cong Yao
cs.AI

Resumo

A leitura de texto em imagens (sejam cenas naturais ou documentos) tem sido um tópico de pesquisa de longa data há décadas, devido ao alto desafio técnico e ampla gama de aplicações. Anteriormente, modelos especializados individuais foram desenvolvidos para lidar com as sub-tarefas de leitura de texto (por exemplo, reconhecimento de texto em cenas, reconhecimento de texto manuscrito e reconhecimento de expressões matemáticas). No entanto, tais modelos especializados geralmente não conseguem generalizar efetivamente entre diferentes sub-tarefas. Recentemente, modelos generalistas (como o GPT-4V), treinados em enormes conjuntos de dados de forma unificada, têm mostrado um enorme potencial na leitura de texto em vários cenários, mas com as desvantagens de precisão limitada e baixa eficiência. Neste trabalho, propomos o Platypus, um modelo especializado generalizado para leitura de texto. Especificamente, o Platypus combina o melhor dos dois mundos: sendo capaz de reconhecer texto de várias formas com uma única arquitetura unificada, ao mesmo tempo em que alcança excelente precisão e alta eficiência. Para explorar melhor a vantagem do Platypus, também construímos um conjunto de dados de leitura de texto (chamado Worms), cujas imagens são selecionadas de conjuntos de dados anteriores e parcialmente re-rotuladas. Experimentos em benchmarks padrão demonstram a eficácia e superioridade do modelo Platypus proposto. O modelo e os dados estarão disponíveis publicamente em https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypus.
English
Reading text from images (either natural scenes or documents) has been a long-standing research topic for decades, due to the high technical challenge and wide application range. Previously, individual specialist models are developed to tackle the sub-tasks of text reading (e.g., scene text recognition, handwritten text recognition and mathematical expression recognition). However, such specialist models usually cannot effectively generalize across different sub-tasks. Recently, generalist models (such as GPT-4V), trained on tremendous data in a unified way, have shown enormous potential in reading text in various scenarios, but with the drawbacks of limited accuracy and low efficiency. In this work, we propose Platypus, a generalized specialist model for text reading. Specifically, Platypus combines the best of both worlds: being able to recognize text of various forms with a single unified architecture, while achieving excellent accuracy and high efficiency. To better exploit the advantage of Platypus, we also construct a text reading dataset (called Worms), the images of which are curated from previous datasets and partially re-labeled. Experiments on standard benchmarks demonstrate the effectiveness and superiority of the proposed Platypus model. Model and data will be made publicly available at https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypus.

Summary

AI-Generated Summary

PDF152November 16, 2024