VisFocus: Prompt-gesteuerte Bildcodierer für OCR-freies dichtes Dokumentenverständnis
VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding
July 17, 2024
Autoren: Ofir Abramovich, Niv Nayman, Sharon Fogel, Inbal Lavi, Ron Litman, Shahar Tsiper, Royee Tichauer, Srikar Appalaraju, Shai Mazor, R. Manmatha
cs.AI
Zusammenfassung
In den letzten Jahren wurden bemerkenswerte Fortschritte im Bereich des visuellen Dokumentenverständnisses erzielt, wobei die vorherrschende Architektur aus einer Kaskade von Bild- und Sprachmodellen besteht. Der Textbestandteil kann entweder explizit mit Hilfe externer OCR-Modelle in OCR-basierten Ansätzen extrahiert werden, oder alternativ kann dem Bildmodell in OCR-freien Ansätzen Lesefähigkeiten verliehen werden. Typischerweise werden die Abfragen an das Modell ausschließlich an den Sprachbestandteil eingegeben, was erfordert, dass die visuellen Merkmale das gesamte Dokument umfassen. In diesem Paper präsentieren wir VisFocus, eine OCR-freie Methode, die darauf abzielt, die Kapazität des Bildencoders besser auszuschöpfen, indem sie ihn direkt mit der Sprachanweisung verknüpft. Hierfür ersetzen wir die Down-Sampling-Schichten durch Schichten, die die Eingabeaufforderung erhalten und es ermöglichen, relevante Teile des Dokuments hervorzuheben, während andere ignoriert werden. Wir kombinieren die Architekturverbesserungen mit einer neuartigen Vortrainingsaufgabe, bei der die Sprachmaskierung auf einem Ausschnitt des Dokumententextes verwendet wird, der dem visuellen Encoder anstelle der Anweisung zugeführt wird, um das Modell mit Fokussierungsfähigkeiten auszustatten. Folglich lernt VisFocus, seine Aufmerksamkeit auf Textabschnitte zu lenken, die für die bereitgestellte Anweisung relevant sind. Unsere Experimente zeigen, dass dieser anweisungsgesteuerte visuelle Kodierungsansatz die Leistung signifikant verbessert und Spitzenleistungen auf verschiedenen Benchmarks erzielt.
English
In recent years, notable advancements have been made in the domain of visual
document understanding, with the prevailing architecture comprising a cascade
of vision and language models. The text component can either be extracted
explicitly with the use of external OCR models in OCR-based approaches, or
alternatively, the vision model can be endowed with reading capabilities in
OCR-free approaches. Typically, the queries to the model are input exclusively
to the language component, necessitating the visual features to encompass the
entire document. In this paper, we present VisFocus, an OCR-free method
designed to better exploit the vision encoder's capacity by coupling it
directly with the language prompt. To do so, we replace the down-sampling
layers with layers that receive the input prompt and allow highlighting
relevant parts of the document, while disregarding others. We pair the
architecture enhancements with a novel pre-training task, using language
masking on a snippet of the document text fed to the visual encoder in place of
the prompt, to empower the model with focusing capabilities. Consequently,
VisFocus learns to allocate its attention to text patches pertinent to the
provided prompt. Our experiments demonstrate that this prompt-guided visual
encoding approach significantly improves performance, achieving
state-of-the-art results on various benchmarks.Summary
AI-Generated Summary