VisFocus: OCR不要な高密度文書理解のためのプロンプト誘導型視覚エンコーダー
VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding
July 17, 2024
著者: Ofir Abramovich, Niv Nayman, Sharon Fogel, Inbal Lavi, Ron Litman, Shahar Tsiper, Royee Tichauer, Srikar Appalaraju, Shai Mazor, R. Manmatha
cs.AI
要旨
近年、視覚的文書理解の分野において顕著な進展が見られ、主流のアーキテクチャは視覚モデルと言語モデルのカスケード構成となっている。テキスト要素は、OCRベースのアプローチでは外部のOCRモデルを用いて明示的に抽出されるか、あるいはOCRフリーのアプローチでは視覚モデルに読み取り能力を付与することができる。一般的に、モデルへのクエリは言語コンポーネントにのみ入力され、視覚的特徴が文書全体を網羅する必要がある。本論文では、視覚エンコーダの能力をより効果的に活用するために、言語プロンプトと直接結合するOCRフリーの手法であるVisFocusを提案する。これを行うために、ダウンサンプリング層を入力プロンプトを受け取り、文書の関連部分を強調し、他の部分を無視する層に置き換える。さらに、アーキテクチャの改良に加えて、プロンプトの代わりに視覚エンコーダに供給される文書テキストのスニペットに対して言語マスキングを行う新たな事前学習タスクを導入し、モデルに焦点を当てる能力を付与する。その結果、VisFocusは提供されたプロンプトに関連するテキストパッチに注意を割り当てることを学習する。我々の実験により、このプロンプト誘導型視覚エンコーディングアプローチが性能を大幅に向上させ、様々なベンチマークで最先端の結果を達成することが実証された。
English
In recent years, notable advancements have been made in the domain of visual
document understanding, with the prevailing architecture comprising a cascade
of vision and language models. The text component can either be extracted
explicitly with the use of external OCR models in OCR-based approaches, or
alternatively, the vision model can be endowed with reading capabilities in
OCR-free approaches. Typically, the queries to the model are input exclusively
to the language component, necessitating the visual features to encompass the
entire document. In this paper, we present VisFocus, an OCR-free method
designed to better exploit the vision encoder's capacity by coupling it
directly with the language prompt. To do so, we replace the down-sampling
layers with layers that receive the input prompt and allow highlighting
relevant parts of the document, while disregarding others. We pair the
architecture enhancements with a novel pre-training task, using language
masking on a snippet of the document text fed to the visual encoder in place of
the prompt, to empower the model with focusing capabilities. Consequently,
VisFocus learns to allocate its attention to text patches pertinent to the
provided prompt. Our experiments demonstrate that this prompt-guided visual
encoding approach significantly improves performance, achieving
state-of-the-art results on various benchmarks.Summary
AI-Generated Summary