VisFocus: Encoder Visivi Guidati da Prompt per la Comprensione Densa di Documenti Senza OCR
VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding
July 17, 2024
Autori: Ofir Abramovich, Niv Nayman, Sharon Fogel, Inbal Lavi, Ron Litman, Shahar Tsiper, Royee Tichauer, Srikar Appalaraju, Shai Mazor, R. Manmatha
cs.AI
Abstract
Negli ultimi anni, sono stati compiuti notevoli progressi nel campo della comprensione visiva dei documenti, con l'architettura prevalente che comprende una cascata di modelli visivi e linguistici. Il componente testuale può essere estratto esplicitamente utilizzando modelli OCR esterni negli approcci basati su OCR, oppure, in alternativa, il modello visivo può essere dotato di capacità di lettura negli approcci senza OCR. Tipicamente, le query al modello vengono inserite esclusivamente nel componente linguistico, rendendo necessario che le caratteristiche visive coprano l'intero documento. In questo articolo, presentiamo VisFocus, un metodo senza OCR progettato per sfruttare meglio la capacità dell'encoder visivo accoppiandolo direttamente con il prompt linguistico. Per fare ciò, sostituiamo i livelli di down-sampling con livelli che ricevono il prompt di input e consentono di evidenziare le parti rilevanti del documento, ignorando le altre. Abbiamo abbinato i miglioramenti dell'architettura a un nuovo compito di pre-training, utilizzando il mascheramento linguistico su un frammento del testo del documento fornito all'encoder visivo al posto del prompt, per dotare il modello di capacità di focalizzazione. Di conseguenza, VisFocus impara a destinare la sua attenzione alle porzioni di testo pertinenti al prompt fornito. I nostri esperimenti dimostrano che questo approccio di codifica visiva guidata dal prompt migliora significativamente le prestazioni, raggiungendo risultati all'avanguardia su vari benchmark.
English
In recent years, notable advancements have been made in the domain of visual
document understanding, with the prevailing architecture comprising a cascade
of vision and language models. The text component can either be extracted
explicitly with the use of external OCR models in OCR-based approaches, or
alternatively, the vision model can be endowed with reading capabilities in
OCR-free approaches. Typically, the queries to the model are input exclusively
to the language component, necessitating the visual features to encompass the
entire document. In this paper, we present VisFocus, an OCR-free method
designed to better exploit the vision encoder's capacity by coupling it
directly with the language prompt. To do so, we replace the down-sampling
layers with layers that receive the input prompt and allow highlighting
relevant parts of the document, while disregarding others. We pair the
architecture enhancements with a novel pre-training task, using language
masking on a snippet of the document text fed to the visual encoder in place of
the prompt, to empower the model with focusing capabilities. Consequently,
VisFocus learns to allocate its attention to text patches pertinent to the
provided prompt. Our experiments demonstrate that this prompt-guided visual
encoding approach significantly improves performance, achieving
state-of-the-art results on various benchmarks.