VisFocus: Codificadores de Visión Guiados por Indicaciones para la Comprensión de Documentos Densos sin OCR
VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding
July 17, 2024
Autores: Ofir Abramovich, Niv Nayman, Sharon Fogel, Inbal Lavi, Ron Litman, Shahar Tsiper, Royee Tichauer, Srikar Appalaraju, Shai Mazor, R. Manmatha
cs.AI
Resumen
En los últimos años, se han logrado avances notables en el campo de la comprensión de documentos visuales, con la arquitectura predominante compuesta por una cascada de modelos de visión y lenguaje. El componente de texto puede extraerse explícitamente con el uso de modelos OCR externos en enfoques basados en OCR, o alternativamente, el modelo de visión puede dotarse de capacidades de lectura en enfoques libres de OCR. Típicamente, las consultas al modelo se introducen exclusivamente en el componente de lenguaje, lo que hace necesario que las características visuales abarquen todo el documento. En este artículo, presentamos VisFocus, un método libre de OCR diseñado para explotar mejor la capacidad del codificador de visión al acoplarlo directamente con la indicación de lenguaje. Para lograrlo, reemplazamos las capas de muestreo descendente con capas que reciben la indicación de entrada y permiten resaltar partes relevantes del documento, mientras ignoran otras. Combinamos las mejoras en la arquitectura con una nueva tarea de pre-entrenamiento, utilizando enmascaramiento de lenguaje en un fragmento del texto del documento alimentado al codificador visual en lugar de la indicación, para dotar al modelo de capacidades de enfoque. En consecuencia, VisFocus aprende a asignar su atención a fragmentos de texto pertinentes a la indicación proporcionada. Nuestros experimentos demuestran que este enfoque de codificación visual guiado por indicaciones mejora significativamente el rendimiento, logrando resultados de vanguardia en varios benchmarks.
English
In recent years, notable advancements have been made in the domain of visual
document understanding, with the prevailing architecture comprising a cascade
of vision and language models. The text component can either be extracted
explicitly with the use of external OCR models in OCR-based approaches, or
alternatively, the vision model can be endowed with reading capabilities in
OCR-free approaches. Typically, the queries to the model are input exclusively
to the language component, necessitating the visual features to encompass the
entire document. In this paper, we present VisFocus, an OCR-free method
designed to better exploit the vision encoder's capacity by coupling it
directly with the language prompt. To do so, we replace the down-sampling
layers with layers that receive the input prompt and allow highlighting
relevant parts of the document, while disregarding others. We pair the
architecture enhancements with a novel pre-training task, using language
masking on a snippet of the document text fed to the visual encoder in place of
the prompt, to empower the model with focusing capabilities. Consequently,
VisFocus learns to allocate its attention to text patches pertinent to the
provided prompt. Our experiments demonstrate that this prompt-guided visual
encoding approach significantly improves performance, achieving
state-of-the-art results on various benchmarks.