VisFocus: Prompt-Gestuurde Vision Encoders voor OCR-Vrij Dicht Documentbegrip
VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding
July 17, 2024
Auteurs: Ofir Abramovich, Niv Nayman, Sharon Fogel, Inbal Lavi, Ron Litman, Shahar Tsiper, Royee Tichauer, Srikar Appalaraju, Shai Mazor, R. Manmatha
cs.AI
Samenvatting
De afgelopen jaren zijn er aanzienlijke vooruitgangen geboekt op het gebied van visueel documentbegrip, waarbij de heersende architectuur bestaat uit een cascade van visie- en taalmodellen. De tekstcomponent kan expliciet worden geëxtraheerd met behulp van externe OCR-modellen in OCR-gebaseerde benaderingen, of alternatief kan het visiemodel worden uitgerust met leesmogelijkheden in OCR-vrije benaderingen. Typisch worden de queries naar het model uitsluitend ingevoerd in de taalcomponent, wat vereist dat de visuele kenmerken het gehele document omvatten. In dit artikel presenteren we VisFocus, een OCR-vrije methode die is ontworpen om de capaciteit van de visuele encoder beter te benutten door deze direct te koppelen aan de taalprompt. Hiervoor vervangen we de downsampling-lagen door lagen die de invoerprompt ontvangen en relevante delen van het document markeren, terwijl andere delen worden genegeerd. We combineren de architectuurverbeteringen met een nieuwe pre-trainings taak, waarbij we taal-masking gebruiken op een fragment van de documenttekst die aan de visuele encoder wordt gevoerd in plaats van de prompt, om het model te voorzien van focusmogelijkheden. Als gevolg hiervan leert VisFocus zijn aandacht te richten op tekstpatches die relevant zijn voor de verstrekte prompt. Onze experimenten tonen aan dat deze prompt-gestuurde visuele encoderingsbenadering de prestaties aanzienlijk verbetert en state-of-the-art resultaten behaalt op verschillende benchmarks.
English
In recent years, notable advancements have been made in the domain of visual
document understanding, with the prevailing architecture comprising a cascade
of vision and language models. The text component can either be extracted
explicitly with the use of external OCR models in OCR-based approaches, or
alternatively, the vision model can be endowed with reading capabilities in
OCR-free approaches. Typically, the queries to the model are input exclusively
to the language component, necessitating the visual features to encompass the
entire document. In this paper, we present VisFocus, an OCR-free method
designed to better exploit the vision encoder's capacity by coupling it
directly with the language prompt. To do so, we replace the down-sampling
layers with layers that receive the input prompt and allow highlighting
relevant parts of the document, while disregarding others. We pair the
architecture enhancements with a novel pre-training task, using language
masking on a snippet of the document text fed to the visual encoder in place of
the prompt, to empower the model with focusing capabilities. Consequently,
VisFocus learns to allocate its attention to text patches pertinent to the
provided prompt. Our experiments demonstrate that this prompt-guided visual
encoding approach significantly improves performance, achieving
state-of-the-art results on various benchmarks.