ChatPaper.aiChatPaper

プラットプス:さまざまな形式のテキストを読むための汎用専門モデル

Platypus: A Generalized Specialist Model for Reading Text in Various Forms

August 27, 2024
著者: Peng Wang, Zhaohai Li, Jun Tang, Humen Zhong, Fei Huang, Zhibo Yang, Cong Yao
cs.AI

要旨

画像からのテキスト読み取りは、数十年にわたり研究されてきたトピックであり、高度な技術的課題と広範な応用範囲があるためです。以前は、テキスト読み取りのサブタスク(例:シーンテキスト認識、手書きテキスト認識、数式認識)に対処するために、個々の専門モデルが開発されていました。しかし、このような専門モデルは通常、異なるサブタスク間で効果的に汎化することができませんでした。最近では、統一された方法で膨大なデータでトレーニングされた一般的なモデル(例:GPT-4V)が、さまざまなシナリオでのテキスト読み取りにおいて莫大な潜在能力を示していますが、精度が限定されていて効率が低いという欠点があります。本研究では、テキスト読み取り用の汎用専門モデルであるPlatypusを提案します。具体的には、Platypusは両方の利点を組み合わせています:単一の統一されたアーキテクチャでさまざまな形式のテキストを認識できるだけでなく、優れた精度と高い効率を達成しています。Platypusの利点をよりよく活用するために、以前のデータセットからキュレーションされ、一部が再ラベル付けされたテキスト読み取りデータセット(Wormsと呼ばれる)も構築しています。標準ベンチマークでの実験は、提案されたPlatypusモデルの効果と優越性を示しています。モデルとデータは、以下のURLから一般に公開されます:https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypus。
English
Reading text from images (either natural scenes or documents) has been a long-standing research topic for decades, due to the high technical challenge and wide application range. Previously, individual specialist models are developed to tackle the sub-tasks of text reading (e.g., scene text recognition, handwritten text recognition and mathematical expression recognition). However, such specialist models usually cannot effectively generalize across different sub-tasks. Recently, generalist models (such as GPT-4V), trained on tremendous data in a unified way, have shown enormous potential in reading text in various scenarios, but with the drawbacks of limited accuracy and low efficiency. In this work, we propose Platypus, a generalized specialist model for text reading. Specifically, Platypus combines the best of both worlds: being able to recognize text of various forms with a single unified architecture, while achieving excellent accuracy and high efficiency. To better exploit the advantage of Platypus, we also construct a text reading dataset (called Worms), the images of which are curated from previous datasets and partially re-labeled. Experiments on standard benchmarks demonstrate the effectiveness and superiority of the proposed Platypus model. Model and data will be made publicly available at https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypus.

Summary

AI-Generated Summary

PDF152November 16, 2024