VisFocus: OCR 없이도 문서를 밀집하게 이해하기 위한 프롬프트 기반 비전 인코더
VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding
July 17, 2024
저자: Ofir Abramovich, Niv Nayman, Sharon Fogel, Inbal Lavi, Ron Litman, Shahar Tsiper, Royee Tichauer, Srikar Appalaraju, Shai Mazor, R. Manmatha
cs.AI
초록
최근 시각 문서 이해 분야에서 주목할 만한 발전이 이루어졌으며, 주로 시각 모델과 언어 모델의 연속적 구조가 주류를 이루고 있습니다. 텍스트 구성 요소는 OCR 기반 접근 방식에서 외부 OCR 모델을 사용하여 명시적으로 추출되거나, 또는 OCR-free 접근 방식에서 시각 모델에 읽기 능력을 부여할 수 있습니다. 일반적으로 모델에 대한 쿼리는 언어 구성 요소에만 입력되며, 이로 인해 시각적 특징이 문서 전체를 포괄해야 합니다. 본 논문에서는 시각 인코더의 능력을 더 잘 활용하기 위해 언어 프롬프트와 직접 결합하는 OCR-free 방법인 VisFocus를 제안합니다. 이를 위해 다운샘플링 레이어를 입력 프롬프트를 받고 문서의 관련 부분을 강조하는 레이어로 대체합니다. 또한, 시각 인코더에 프롬프트 대신 문서 텍스트의 일부를 입력하고 언어 마스킹을 사용하는 새로운 사전 학습 작업을 도입하여 모델에 초점 기능을 부여합니다. 결과적으로 VisFocus는 제공된 프롬프트와 관련된 텍스트 패치에 주의를 할당하는 방법을 학습합니다. 실험 결과, 이 프롬프트 기반 시각 인코딩 접근 방식이 성능을 크게 향상시키며 다양한 벤치마크에서 최첨단 결과를 달성함을 보여줍니다.
English
In recent years, notable advancements have been made in the domain of visual
document understanding, with the prevailing architecture comprising a cascade
of vision and language models. The text component can either be extracted
explicitly with the use of external OCR models in OCR-based approaches, or
alternatively, the vision model can be endowed with reading capabilities in
OCR-free approaches. Typically, the queries to the model are input exclusively
to the language component, necessitating the visual features to encompass the
entire document. In this paper, we present VisFocus, an OCR-free method
designed to better exploit the vision encoder's capacity by coupling it
directly with the language prompt. To do so, we replace the down-sampling
layers with layers that receive the input prompt and allow highlighting
relevant parts of the document, while disregarding others. We pair the
architecture enhancements with a novel pre-training task, using language
masking on a snippet of the document text fed to the visual encoder in place of
the prompt, to empower the model with focusing capabilities. Consequently,
VisFocus learns to allocate its attention to text patches pertinent to the
provided prompt. Our experiments demonstrate that this prompt-guided visual
encoding approach significantly improves performance, achieving
state-of-the-art results on various benchmarks.Summary
AI-Generated Summary