VisFocus: Codificadores de Visão Guiados por Prompt para Compreensão de Documentos Densos sem OCR
VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding
July 17, 2024
Autores: Ofir Abramovich, Niv Nayman, Sharon Fogel, Inbal Lavi, Ron Litman, Shahar Tsiper, Royee Tichauer, Srikar Appalaraju, Shai Mazor, R. Manmatha
cs.AI
Resumo
Nos últimos anos, foram feitos avanços notáveis no domínio da compreensão de documentos visuais, com a arquitetura predominante compreendendo uma cascata de modelos de visão e linguagem. O componente de texto pode ser extraído explicitamente com o uso de modelos OCR externos em abordagens baseadas em OCR, ou, alternativamente, o modelo de visão pode ser dotado de capacidades de leitura em abordagens livres de OCR. Tipicamente, as consultas ao modelo são inseridas exclusivamente no componente de linguagem, exigindo que as características visuais englobem todo o documento. Neste artigo, apresentamos o VisFocus, um método livre de OCR projetado para explorar melhor a capacidade do codificador de visão ao acoplá-lo diretamente com o comando de linguagem. Para isso, substituímos as camadas de redução de amostragem por camadas que recebem o comando de entrada e permitem destacar partes relevantes do documento, enquanto ignoram outras. Combinamos os aprimoramentos da arquitetura com uma nova tarefa de pré-treinamento, usando mascaramento de linguagem em um trecho do texto do documento alimentado ao codificador visual no lugar do comando, para capacitar o modelo com habilidades de foco. Consequentemente, o VisFocus aprende a alocar sua atenção para trechos de texto pertinentes ao comando fornecido. Nossos experimentos demonstram que esta abordagem de codificação visual guiada por comando melhora significativamente o desempenho, alcançando resultados de ponta em vários benchmarks.
English
In recent years, notable advancements have been made in the domain of visual
document understanding, with the prevailing architecture comprising a cascade
of vision and language models. The text component can either be extracted
explicitly with the use of external OCR models in OCR-based approaches, or
alternatively, the vision model can be endowed with reading capabilities in
OCR-free approaches. Typically, the queries to the model are input exclusively
to the language component, necessitating the visual features to encompass the
entire document. In this paper, we present VisFocus, an OCR-free method
designed to better exploit the vision encoder's capacity by coupling it
directly with the language prompt. To do so, we replace the down-sampling
layers with layers that receive the input prompt and allow highlighting
relevant parts of the document, while disregarding others. We pair the
architecture enhancements with a novel pre-training task, using language
masking on a snippet of the document text fed to the visual encoder in place of
the prompt, to empower the model with focusing capabilities. Consequently,
VisFocus learns to allocate its attention to text patches pertinent to the
provided prompt. Our experiments demonstrate that this prompt-guided visual
encoding approach significantly improves performance, achieving
state-of-the-art results on various benchmarks.