Jenseits des Rasters: Layoutinformierte Multi-Vektor-Retrieval mit geparsten visuellen Dokumentenrepräsentationen
Beyond the Grid: Layout-Informed Multi-Vector Retrieval with Parsed Visual Document Representations
March 2, 2026
Autoren: Yibo Yan, Mingdong Ou, Yi Cao, Xin Zou, Shuliang Liu, Jiahao Huo, Yu Huang, James Kwok, Xuming Hu
cs.AI
Zusammenfassung
Um das volle Potenzial von visuell anspruchsvollen Dokumenten auszuschöpfen, sind Retrieval-Systeme erforderlich, die nicht nur Text, sondern auch komplexe Layouts verstehen – eine zentrale Herausforderung im Bereich Visual Document Retrieval (VDR). Die vorherrschenden Multi-Vektor-Architekturen stoßen, obwohl leistungsstark, auf ein entscheidendes Speicher-Engpass, das bestehende Optimierungsstrategien wie das Zusammenführen von Embeddings, das Ausdünnen (Pruning) oder die Verwendung abstrakter Tokens nicht lösen können, ohne die Leistung zu beeinträchtigen oder wichtige Layout-Informationen zu ignorieren. Um dieses Problem zu adressieren, stellen wir ColParse vor, ein neuartiges Paradigma, das ein Dokumenten-Parsing-Modell nutzt, um eine kleine Anzahl von layout-informierten Teilbild-Embeddings zu erzeugen. Diese werden dann mit einem globalen Seitenvektor fusioniert, um eine kompakte und strukturbewusste Multi-Vektor-Repräsentation zu schaffen. Umfangreiche Experimente belegen, dass unsere Methode den Speicherbedarf um über 95 % reduziert und gleichzeitig signifikante Leistungssteigerungen über zahlreiche Benchmarks und Basis-Modelle hinweg erzielt. ColParse überbrückt somit die kritische Lücke zwischen der feinkörnigen Genauigkeit der Multi-Vektor-Rückgewinnung und den praktischen Anforderungen eines großflächigen Einsatzes und eröffnet einen neuen Weg hin zu effizienten und interpretierbaren multimodalen Informationssystemen.
English
Harnessing the full potential of visually-rich documents requires retrieval systems that understand not just text, but intricate layouts, a core challenge in Visual Document Retrieval (VDR). The prevailing multi-vector architectures, while powerful, face a crucial storage bottleneck that current optimization strategies, such as embedding merging, pruning, or using abstract tokens, fail to resolve without compromising performance or ignoring vital layout cues. To address this, we introduce ColParse, a novel paradigm that leverages a document parsing model to generate a small set of layout-informed sub-image embeddings, which are then fused with a global page-level vector to create a compact and structurally-aware multi-vector representation. Extensive experiments demonstrate that our method reduces storage requirements by over 95% while simultaneously yielding significant performance gains across numerous benchmarks and base models. ColParse thus bridges the critical gap between the fine-grained accuracy of multi-vector retrieval and the practical demands of large-scale deployment, offering a new path towards efficient and interpretable multimodal information systems.