Além da Grade: Recuperação Multi-Vetorial Informada por Layout com Representações Visuais de Documentos Analisados

Resumo

Aproveitar todo o potencial de documentos visualmente ricos exige sistemas de recuperação que compreendam não apenas o texto, mas também os layouts intrincados, um desafio central na Recuperação Visual de Documentos (VDR). As arquiteturas predominantes de múltiplos vetores, embora poderosas, enfrentam um gargalo crucial de armazenamento que as estratégias de otimização atuais, como fusão de *embeddings*, poda ou uso de tokens abstratos, não conseguem resolver sem comprometer o desempenho ou ignorar pistas vitais de layout. Para enfrentar esse problema, introduzimos o ColParse, um novo paradigma que aproveita um modelo de análise de documentos para gerar um pequeno conjunto de *embeddings* de subimagens informadas pelo layout, que são então fundidas com um vetor global de nível de página para criar uma representação compacta e estruturalmente consciente de múltiplos vetores. Experimentos extensivos demonstram que nosso método reduz os requisitos de armazenamento em mais de 95%, ao mesmo tempo que produz ganhos significativos de desempenho em diversos benchmarks e modelos base. O ColParse, portanto, preenche a lacuna crítica entre a precisão granular da recuperação por múltiplos vetores e as demandas práticas de implantação em larga escala, oferecendo um novo caminho para sistemas de informação multimodais eficientes e interpretáveis.

English

Harnessing the full potential of visually-rich documents requires retrieval systems that understand not just text, but intricate layouts, a core challenge in Visual Document Retrieval (VDR). The prevailing multi-vector architectures, while powerful, face a crucial storage bottleneck that current optimization strategies, such as embedding merging, pruning, or using abstract tokens, fail to resolve without compromising performance or ignoring vital layout cues. To address this, we introduce ColParse, a novel paradigm that leverages a document parsing model to generate a small set of layout-informed sub-image embeddings, which are then fused with a global page-level vector to create a compact and structurally-aware multi-vector representation. Extensive experiments demonstrate that our method reduces storage requirements by over 95% while simultaneously yielding significant performance gains across numerous benchmarks and base models. ColParse thus bridges the critical gap between the fine-grained accuracy of multi-vector retrieval and the practical demands of large-scale deployment, offering a new path towards efficient and interpretable multimodal information systems.