VisFocus : Encodeurs visuels guidés par prompt pour la compréhension dense de documents sans OCR
VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding
July 17, 2024
Auteurs: Ofir Abramovich, Niv Nayman, Sharon Fogel, Inbal Lavi, Ron Litman, Shahar Tsiper, Royee Tichauer, Srikar Appalaraju, Shai Mazor, R. Manmatha
cs.AI
Résumé
Ces dernières années, des avancées notables ont été réalisées dans le domaine de la compréhension visuelle de documents, avec une architecture prédominante composée d'une cascade de modèles de vision et de langage. Le composant texte peut être extrait explicitement à l'aide de modèles OCR externes dans les approches basées sur l'OCR, ou, alternativement, le modèle de vision peut être doté de capacités de lecture dans les approches sans OCR. Typiquement, les requêtes au modèle sont introduites exclusivement dans le composant langage, nécessitant que les caractéristiques visuelles englobent l'intégralité du document. Dans cet article, nous présentons VisFocus, une méthode sans OCR conçue pour mieux exploiter la capacité de l'encodeur visuel en le couplant directement avec l'invite de langage. Pour ce faire, nous remplaçons les couches de sous-échantillonnage par des couches qui reçoivent l'invite d'entrée et permettent de mettre en évidence les parties pertinentes du document, tout en ignorant les autres. Nous associons ces améliorations architecturales à une nouvelle tâche de pré-entraînement, utilisant le masquage de langage sur un extrait du texte du document fourni à l'encodeur visuel à la place de l'invite, pour doter le modèle de capacités de focalisation. Par conséquent, VisFocus apprend à allouer son attention aux fragments de texte pertinents par rapport à l'invite fournie. Nos expériences démontrent que cette approche d'encodage visuel guidé par l'invite améliore significativement les performances, atteignant des résultats de pointe sur divers benchmarks.
English
In recent years, notable advancements have been made in the domain of visual
document understanding, with the prevailing architecture comprising a cascade
of vision and language models. The text component can either be extracted
explicitly with the use of external OCR models in OCR-based approaches, or
alternatively, the vision model can be endowed with reading capabilities in
OCR-free approaches. Typically, the queries to the model are input exclusively
to the language component, necessitating the visual features to encompass the
entire document. In this paper, we present VisFocus, an OCR-free method
designed to better exploit the vision encoder's capacity by coupling it
directly with the language prompt. To do so, we replace the down-sampling
layers with layers that receive the input prompt and allow highlighting
relevant parts of the document, while disregarding others. We pair the
architecture enhancements with a novel pre-training task, using language
masking on a snippet of the document text fed to the visual encoder in place of
the prompt, to empower the model with focusing capabilities. Consequently,
VisFocus learns to allocate its attention to text patches pertinent to the
provided prompt. Our experiments demonstrate that this prompt-guided visual
encoding approach significantly improves performance, achieving
state-of-the-art results on various benchmarks.Summary
AI-Generated Summary