Más Allá de la Cuadrícula: Recuperación Multi-Vector con Información de Diseño mediante Representaciones Visuales de Documentos Analizados
Beyond the Grid: Layout-Informed Multi-Vector Retrieval with Parsed Visual Document Representations
March 2, 2026
Autores: Yibo Yan, Mingdong Ou, Yi Cao, Xin Zou, Shuliang Liu, Jiahao Huo, Yu Huang, James Kwok, Xuming Hu
cs.AI
Resumen
Aprovechar todo el potencial de los documentos visualmente ricos requiere sistemas de recuperación que comprendan no solo texto, sino diseños intrincados, un desafío fundamental en la Recuperación Visual de Documentos (RVD). Las arquitecturas multivectoriales predominantes, aunque potentes, enfrentan un cuello de botella crucial de almacenamiento que las estrategias de optimización actuales, como la fusión de *embeddings*, la poda o el uso de tokens abstractos, no logran resolver sin comprometer el rendimiento o ignorar pistas de diseño vitales. Para abordar esto, presentamos ColParse, un paradigma novedoso que aprovecha un modelo de análisis de documentos para generar un pequeño conjunto de *embeddings* de subimágenes informadas por el diseño, que luego se fusionan con un vector global a nivel de página para crear una representación multivectorial compacta y estructuralmente consciente. Experimentos exhaustivos demuestran que nuestro método reduce los requisitos de almacenamiento en más de un 95%, a la vez que produce mejoras significativas de rendimiento en numerosos puntos de referencia y modelos base. ColParse, por lo tanto, cierra la brecha crítica entre la precisión granular de la recuperación multivectorial y las demandas prácticas del despliegue a gran escala, ofreciendo un nuevo camino hacia sistemas de información multimodal eficientes e interpretables.
English
Harnessing the full potential of visually-rich documents requires retrieval systems that understand not just text, but intricate layouts, a core challenge in Visual Document Retrieval (VDR). The prevailing multi-vector architectures, while powerful, face a crucial storage bottleneck that current optimization strategies, such as embedding merging, pruning, or using abstract tokens, fail to resolve without compromising performance or ignoring vital layout cues. To address this, we introduce ColParse, a novel paradigm that leverages a document parsing model to generate a small set of layout-informed sub-image embeddings, which are then fused with a global page-level vector to create a compact and structurally-aware multi-vector representation. Extensive experiments demonstrate that our method reduces storage requirements by over 95% while simultaneously yielding significant performance gains across numerous benchmarks and base models. ColParse thus bridges the critical gap between the fine-grained accuracy of multi-vector retrieval and the practical demands of large-scale deployment, offering a new path towards efficient and interpretable multimodal information systems.