Voorbij het Raster: Layout-Geïnformeerde Multi-Vector Retrieval met Geparseerde Visuele Documentrepresentaties
Beyond the Grid: Layout-Informed Multi-Vector Retrieval with Parsed Visual Document Representations
March 2, 2026
Auteurs: Yibo Yan, Mingdong Ou, Yi Cao, Xin Zou, Shuliang Liu, Jiahao Huo, Yu Huang, James Kwok, Xuming Hu
cs.AI
Samenvatting
Om het volledige potentieel van visueel rijke documenten te benutten, zijn retrievalsystemen nodig die niet alleen tekst, maar ook complexe lay-outs begrijpen, een kernuitdaging in Visuele Documentretrieval (VDR). De heersende multi-vectorarchitecturen, hoewel krachtig, kampen met een cruciaal opslagprobleem waarop huidige optimalisatiestrategieën, zoals het samenvoegen of uitdunnen van embeddings of het gebruik van abstracte tokens, geen antwoord bieden zonder in te boeten aan prestaties of essentiële lay-outinformatie te negeren. Om dit aan te pakken, introduceren wij ColParse, een nieuwe aanpak die een documentparsemodel gebruikt om een kleine set van lay-out-geïnformeerde sub-afbeelding-embeddings te genereren, die vervolgens worden samengevoegd met een globale vector op paginaniveau om een compacte en structureel-bewuste multi-vectorrepresentatie te creëren. Uitgebreide experimenten tonen aan dat onze methode de opslagbehoefte met meer dan 95% vermindert en tegelijkertijd aanzienlijke prestatieverbeteringen oplevert op tal van benchmarks en basismodellen. ColParse overbrugt zo de kritieke kloof tussen de fijnmazige nauwkeurigheid van multi-vectorretrieval en de praktische eisen van grootschalige implementatie, en biedt zo een nieuw pad naar efficiënte en interpreteerbare multimodale informatiesystemen.
English
Harnessing the full potential of visually-rich documents requires retrieval systems that understand not just text, but intricate layouts, a core challenge in Visual Document Retrieval (VDR). The prevailing multi-vector architectures, while powerful, face a crucial storage bottleneck that current optimization strategies, such as embedding merging, pruning, or using abstract tokens, fail to resolve without compromising performance or ignoring vital layout cues. To address this, we introduce ColParse, a novel paradigm that leverages a document parsing model to generate a small set of layout-informed sub-image embeddings, which are then fused with a global page-level vector to create a compact and structurally-aware multi-vector representation. Extensive experiments demonstrate that our method reduces storage requirements by over 95% while simultaneously yielding significant performance gains across numerous benchmarks and base models. ColParse thus bridges the critical gap between the fine-grained accuracy of multi-vector retrieval and the practical demands of large-scale deployment, offering a new path towards efficient and interpretable multimodal information systems.