Ornitorrinco: Un Modelo Especializado Generalizado para Leer Texto en Variadas Formas
Platypus: A Generalized Specialist Model for Reading Text in Various Forms
August 27, 2024
Autores: Peng Wang, Zhaohai Li, Jun Tang, Humen Zhong, Fei Huang, Zhibo Yang, Cong Yao
cs.AI
Resumen
La lectura de texto en imágenes (ya sean escenas naturales o documentos) ha sido un tema de investigación de larga data durante décadas, debido al alto desafío técnico y amplio rango de aplicaciones. Anteriormente, se desarrollaban modelos especializados individuales para abordar las sub tareas de lectura de texto (por ejemplo, reconocimiento de texto en escenas, reconocimiento de texto manuscrito y reconocimiento de expresiones matemáticas). Sin embargo, dichos modelos especializados generalmente no pueden generalizar de manera efectiva entre diferentes sub tareas. Recientemente, modelos generalistas (como GPT-4V), entrenados con enormes cantidades de datos de manera unificada, han mostrado un enorme potencial en la lectura de texto en varios escenarios, pero con las desventajas de una precisión limitada y baja eficiencia. En este trabajo, proponemos Platypus, un modelo especializado generalizado para la lectura de texto. Específicamente, Platypus combina lo mejor de ambos mundos: siendo capaz de reconocer texto de diversas formas con una arquitectura unificada única, al mismo tiempo que logra una excelente precisión y alta eficiencia. Para explotar mejor la ventaja de Platypus, también construimos un conjunto de datos de lectura de texto (llamado Worms), cuyas imágenes son seleccionadas de conjuntos de datos anteriores y parcialmente re-etiquetadas. Experimentos en bancos de pruebas estándar demuestran la efectividad y superioridad del modelo Platypus propuesto. El modelo y los datos estarán disponibles públicamente en https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypus.
English
Reading text from images (either natural scenes or documents) has been a
long-standing research topic for decades, due to the high technical challenge
and wide application range. Previously, individual specialist models are
developed to tackle the sub-tasks of text reading (e.g., scene text
recognition, handwritten text recognition and mathematical expression
recognition). However, such specialist models usually cannot effectively
generalize across different sub-tasks. Recently, generalist models (such as
GPT-4V), trained on tremendous data in a unified way, have shown enormous
potential in reading text in various scenarios, but with the drawbacks of
limited accuracy and low efficiency. In this work, we propose Platypus, a
generalized specialist model for text reading. Specifically, Platypus combines
the best of both worlds: being able to recognize text of various forms with a
single unified architecture, while achieving excellent accuracy and high
efficiency. To better exploit the advantage of Platypus, we also construct a
text reading dataset (called Worms), the images of which are curated from
previous datasets and partially re-labeled. Experiments on standard benchmarks
demonstrate the effectiveness and superiority of the proposed Platypus model.
Model and data will be made publicly available at
https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypus.Summary
AI-Generated Summary