Au-delà de la grille : récupération multi-vecteurs informée par la mise en page avec des représentations visuelles de documents analysées
Beyond the Grid: Layout-Informed Multi-Vector Retrieval with Parsed Visual Document Representations
March 2, 2026
Auteurs: Yibo Yan, Mingdong Ou, Yi Cao, Xin Zou, Shuliang Liu, Jiahao Huo, Yu Huang, James Kwok, Xuming Hu
cs.AI
Résumé
Exploiter pleinement le potentiel des documents visuellement riches nécessite des systèmes de recherche capables de comprendre non seulement le texte, mais aussi les mises en page complexes, un défi fondamental dans la Recherche Visuelle de Documents (RVD). Les architectures multi-vecteurs prédominantes, bien que puissantes, rencontrent un goulot d'étranglement crucial lié au stockage que les stratégies d'optimisation actuelles, telles que la fusion d'incorporations, l'élagage ou l'utilisation de jetons abstraits, ne parviennent pas à résoudre sans compromettre les performances ou ignorer des indices de mise en page essentiels. Pour y remédier, nous présentons ColParse, un nouveau paradigme qui utilise un modèle d'analyse de document pour générer un petit ensemble d'incorporations de sous-images informées par la mise en page, qui sont ensuite fusionnées avec un vecteur global au niveau de la page pour créer une représentation multi-vecteurs compacte et structurellement consciente. Des expériences approfondies démontrent que notre méthode réduit les besoins de stockage de plus de 95 % tout en générant simultanément des gains de performance significatifs sur de nombreux benchmarks et modèles de base. ColParse comble ainsi le fossé critique entre la précision granulaire de la recherche multi-vecteurs et les exigences pratiques du déploiement à grande échelle, ouvrant une nouvelle voie vers des systèmes d'information multimodaux efficaces et interprétables.
English
Harnessing the full potential of visually-rich documents requires retrieval systems that understand not just text, but intricate layouts, a core challenge in Visual Document Retrieval (VDR). The prevailing multi-vector architectures, while powerful, face a crucial storage bottleneck that current optimization strategies, such as embedding merging, pruning, or using abstract tokens, fail to resolve without compromising performance or ignoring vital layout cues. To address this, we introduce ColParse, a novel paradigm that leverages a document parsing model to generate a small set of layout-informed sub-image embeddings, which are then fused with a global page-level vector to create a compact and structurally-aware multi-vector representation. Extensive experiments demonstrate that our method reduces storage requirements by over 95% while simultaneously yielding significant performance gains across numerous benchmarks and base models. ColParse thus bridges the critical gap between the fine-grained accuracy of multi-vector retrieval and the practical demands of large-scale deployment, offering a new path towards efficient and interpretable multimodal information systems.