Ornitorrinco: Un Modelo Especializado Generalizado para Leer Texto en Variadas Formas

Resumen

La lectura de texto en imágenes (ya sean escenas naturales o documentos) ha sido un tema de investigación de larga data durante décadas, debido al alto desafío técnico y amplio rango de aplicaciones. Anteriormente, se desarrollaban modelos especializados individuales para abordar las sub tareas de lectura de texto (por ejemplo, reconocimiento de texto en escenas, reconocimiento de texto manuscrito y reconocimiento de expresiones matemáticas). Sin embargo, dichos modelos especializados generalmente no pueden generalizar de manera efectiva entre diferentes sub tareas. Recientemente, modelos generalistas (como GPT-4V), entrenados con enormes cantidades de datos de manera unificada, han mostrado un enorme potencial en la lectura de texto en varios escenarios, pero con las desventajas de una precisión limitada y baja eficiencia. En este trabajo, proponemos Platypus, un modelo especializado generalizado para la lectura de texto. Específicamente, Platypus combina lo mejor de ambos mundos: siendo capaz de reconocer texto de diversas formas con una arquitectura unificada única, al mismo tiempo que logra una excelente precisión y alta eficiencia. Para explotar mejor la ventaja de Platypus, también construimos un conjunto de datos de lectura de texto (llamado Worms), cuyas imágenes son seleccionadas de conjuntos de datos anteriores y parcialmente re-etiquetadas. Experimentos en bancos de pruebas estándar demuestran la efectividad y superioridad del modelo Platypus propuesto. El modelo y los datos estarán disponibles públicamente en https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypus.

English

Reading text from images (either natural scenes or documents) has been a long-standing research topic for decades, due to the high technical challenge and wide application range. Previously, individual specialist models are developed to tackle the sub-tasks of text reading (e.g., scene text recognition, handwritten text recognition and mathematical expression recognition). However, such specialist models usually cannot effectively generalize across different sub-tasks. Recently, generalist models (such as GPT-4V), trained on tremendous data in a unified way, have shown enormous potential in reading text in various scenarios, but with the drawbacks of limited accuracy and low efficiency. In this work, we propose Platypus, a generalized specialist model for text reading. Specifically, Platypus combines the best of both worlds: being able to recognize text of various forms with a single unified architecture, while achieving excellent accuracy and high efficiency. To better exploit the advantage of Platypus, we also construct a text reading dataset (called Worms), the images of which are curated from previous datasets and partially re-labeled. Experiments on standard benchmarks demonstrate the effectiveness and superiority of the proposed Platypus model. Model and data will be made publicly available at https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypus.

Ornitorrinco: Un Modelo Especializado Generalizado para Leer Texto en Variadas Formas

Platypus: A Generalized Specialist Model for Reading Text in Various Forms

Resumen

Support