ChatPaper.aiChatPaper

Platypus: 다양한 형식의 텍스트를 읽는 일반화된 전문가 모델

Platypus: A Generalized Specialist Model for Reading Text in Various Forms

August 27, 2024
저자: Peng Wang, Zhaohai Li, Jun Tang, Humen Zhong, Fei Huang, Zhibo Yang, Cong Yao
cs.AI

초록

이미지에서 텍스트를 읽는 것은 수십 년 동안 장기적인 연구 주제로 다루어져 왔으며, 높은 기술적 도전과 넓은 응용 범위 때문에 그렇습니다. 이전에는 텍스트 읽기의 하위 작업(예: 장면 텍스트 인식, 필기 텍스트 인식 및 수학식 인식)을 다루기 위해 개별 전문가 모델이 개발되었습니다. 그러나 이러한 전문가 모델은 일반적으로 서로 다른 하위 작업 간에 효과적으로 일반화할 수 없습니다. 최근에는 방대한 데이터로 통합적으로 훈련된 GPT-4V와 같은 종합 모델이 다양한 시나리오에서 텍스트를 읽는 데 엄청난 잠재력을 보여주었지만, 정확도가 제한되고 효율성이 낮다는 단점이 있습니다. 본 연구에서는 Platypus라는 텍스트 읽기를 위한 종합 전문가 모델을 제안합니다. 구체적으로 Platypus는 단일 통합 아키텍처로 다양한 형태의 텍스트를 인식할 수 있는 능력과 뛰어난 정확도 및 높은 효율성을 달성하는 데 성공했습니다. Platypus의 장점을 더 잘 활용하기 위해 이를 위해 텍스트 읽기 데이터셋인 Worms을 구축했습니다. Worms의 이미지는 이전 데이터셋에서 선별되어 일부 다시 레이블이 지정되었습니다. 표준 벤치마크에서의 실험은 제안된 Platypus 모델의 효과성과 우수성을 입증했습니다. 모델과 데이터는 https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypus에서 공개적으로 제공될 예정입니다.
English
Reading text from images (either natural scenes or documents) has been a long-standing research topic for decades, due to the high technical challenge and wide application range. Previously, individual specialist models are developed to tackle the sub-tasks of text reading (e.g., scene text recognition, handwritten text recognition and mathematical expression recognition). However, such specialist models usually cannot effectively generalize across different sub-tasks. Recently, generalist models (such as GPT-4V), trained on tremendous data in a unified way, have shown enormous potential in reading text in various scenarios, but with the drawbacks of limited accuracy and low efficiency. In this work, we propose Platypus, a generalized specialist model for text reading. Specifically, Platypus combines the best of both worlds: being able to recognize text of various forms with a single unified architecture, while achieving excellent accuracy and high efficiency. To better exploit the advantage of Platypus, we also construct a text reading dataset (called Worms), the images of which are curated from previous datasets and partially re-labeled. Experiments on standard benchmarks demonstrate the effectiveness and superiority of the proposed Platypus model. Model and data will be made publicly available at https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypus.

Summary

AI-Generated Summary

PDF152November 16, 2024