ChatPaper.aiChatPaper

VisFocus: Prompt-gesteuerte Bildcodierer für OCR-freies dichtes Dokumentenverständnis

VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding

July 17, 2024
Autoren: Ofir Abramovich, Niv Nayman, Sharon Fogel, Inbal Lavi, Ron Litman, Shahar Tsiper, Royee Tichauer, Srikar Appalaraju, Shai Mazor, R. Manmatha
cs.AI

Zusammenfassung

In den letzten Jahren wurden bemerkenswerte Fortschritte im Bereich des visuellen Dokumentenverständnisses erzielt, wobei die vorherrschende Architektur aus einer Kaskade von Bild- und Sprachmodellen besteht. Der Textbestandteil kann entweder explizit mit Hilfe externer OCR-Modelle in OCR-basierten Ansätzen extrahiert werden, oder alternativ kann dem Bildmodell in OCR-freien Ansätzen Lesefähigkeiten verliehen werden. Typischerweise werden die Abfragen an das Modell ausschließlich an den Sprachbestandteil eingegeben, was erfordert, dass die visuellen Merkmale das gesamte Dokument umfassen. In diesem Paper präsentieren wir VisFocus, eine OCR-freie Methode, die darauf abzielt, die Kapazität des Bildencoders besser auszuschöpfen, indem sie ihn direkt mit der Sprachanweisung verknüpft. Hierfür ersetzen wir die Down-Sampling-Schichten durch Schichten, die die Eingabeaufforderung erhalten und es ermöglichen, relevante Teile des Dokuments hervorzuheben, während andere ignoriert werden. Wir kombinieren die Architekturverbesserungen mit einer neuartigen Vortrainingsaufgabe, bei der die Sprachmaskierung auf einem Ausschnitt des Dokumententextes verwendet wird, der dem visuellen Encoder anstelle der Anweisung zugeführt wird, um das Modell mit Fokussierungsfähigkeiten auszustatten. Folglich lernt VisFocus, seine Aufmerksamkeit auf Textabschnitte zu lenken, die für die bereitgestellte Anweisung relevant sind. Unsere Experimente zeigen, dass dieser anweisungsgesteuerte visuelle Kodierungsansatz die Leistung signifikant verbessert und Spitzenleistungen auf verschiedenen Benchmarks erzielt.
English
In recent years, notable advancements have been made in the domain of visual document understanding, with the prevailing architecture comprising a cascade of vision and language models. The text component can either be extracted explicitly with the use of external OCR models in OCR-based approaches, or alternatively, the vision model can be endowed with reading capabilities in OCR-free approaches. Typically, the queries to the model are input exclusively to the language component, necessitating the visual features to encompass the entire document. In this paper, we present VisFocus, an OCR-free method designed to better exploit the vision encoder's capacity by coupling it directly with the language prompt. To do so, we replace the down-sampling layers with layers that receive the input prompt and allow highlighting relevant parts of the document, while disregarding others. We pair the architecture enhancements with a novel pre-training task, using language masking on a snippet of the document text fed to the visual encoder in place of the prompt, to empower the model with focusing capabilities. Consequently, VisFocus learns to allocate its attention to text patches pertinent to the provided prompt. Our experiments demonstrate that this prompt-guided visual encoding approach significantly improves performance, achieving state-of-the-art results on various benchmarks.

Summary

AI-Generated Summary

PDF194November 28, 2024