VisFocus: Направляемые подсказками визионные кодировщики для плотного понимания документов без OCR.
VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding
July 17, 2024
Авторы: Ofir Abramovich, Niv Nayman, Sharon Fogel, Inbal Lavi, Ron Litman, Shahar Tsiper, Royee Tichauer, Srikar Appalaraju, Shai Mazor, R. Manmatha
cs.AI
Аннотация
В последние годы были сделаны значительные достижения в области понимания визуальных документов, с преобладающей архитектурой, включающей каскад моделей зрения и языка. Компонент текста может быть извлечен явно с использованием внешних моделей OCR в подходах на основе OCR, либо, альтернативно, модель зрения может быть наделена способностью к чтению в подходах без OCR. Обычно запросы к модели вводятся исключительно в компонент языка, что требует, чтобы визуальные признаки охватывали весь документ. В данной статье мы представляем VisFocus, метод без OCR, разработанный для более эффективного использования возможностей кодировщика зрения путем прямого его соединения с языковым запросом. Для этого мы заменяем слои с понижающим дискретизацию с входными слоями, которые получают входной запрос и позволяют выделять значимые части документа, игнорируя другие. Мы сочетаем улучшения архитектуры с новой задачей предварительного обучения, используя маскирование языка на фрагменте текста документа, поданного на вход визуальному кодировщику вместо запроса, чтобы наделить модель возможностью фокусировки. В результате VisFocus учится распределять внимание на текстовые участки, соответствующие предоставленному запросу. Наши эксперименты показывают, что этот подход к визуальному кодированию с управляемым запросом значительно улучшает производительность, достигая передовых результатов на различных бенчмарках.
English
In recent years, notable advancements have been made in the domain of visual
document understanding, with the prevailing architecture comprising a cascade
of vision and language models. The text component can either be extracted
explicitly with the use of external OCR models in OCR-based approaches, or
alternatively, the vision model can be endowed with reading capabilities in
OCR-free approaches. Typically, the queries to the model are input exclusively
to the language component, necessitating the visual features to encompass the
entire document. In this paper, we present VisFocus, an OCR-free method
designed to better exploit the vision encoder's capacity by coupling it
directly with the language prompt. To do so, we replace the down-sampling
layers with layers that receive the input prompt and allow highlighting
relevant parts of the document, while disregarding others. We pair the
architecture enhancements with a novel pre-training task, using language
masking on a snippet of the document text fed to the visual encoder in place of
the prompt, to empower the model with focusing capabilities. Consequently,
VisFocus learns to allocate its attention to text patches pertinent to the
provided prompt. Our experiments demonstrate that this prompt-guided visual
encoding approach significantly improves performance, achieving
state-of-the-art results on various benchmarks.Summary
AI-Generated Summary