Oltre la Griglia: Recupero Multi-Vettoriale Informato dal Layout con Rappresentazioni Analizzate di Documenti Visivi

Abstract

Sfruttare appieno il potenziale dei documenti visualmente ricchi richiede sistemi di retrieval che comprendano non solo il testo, ma anche i layout complessi, una sfida fondamentale nel Recupero Visivo di Documenti (VDR). Le architetture multi-vettore predominanti, sebbene potenti, affrontano un cruciale collo di bottiglia legato allo storage, che le attuali strategie di ottimizzazione, come la fusione degli embedding, la potatura o l'uso di token astratti, non riescono a risolvere senza compromettere le prestazioni o ignorare indizi layout vitali. Per affrontare questo problema, introduciamo ColParse, un nuovo paradigma che utilizza un modello di parsing documentale per generare un piccolo insieme di embedding di sotto-immagini informati dal layout, che vengono poi fusi con un vettore globale a livello di pagina per creare una rappresentazione multi-vettore compatta e strutturalmente consapevole. Esperimenti estensivi dimostrano che il nostro metodo riduce i requisiti di storage di oltre il 95%, producendo simultaneamente significativi miglioramenti prestazionali su numerosi benchmark e modelli di base. ColParse colma quindi il divario critico tra l'accuratezza granulare del retrieval multi-vettore e le esigenze pratiche della diffusione su larga scala, offrendo una nuova strada verso sistemi di informazione multimodale efficienti e interpretabili.

English

Harnessing the full potential of visually-rich documents requires retrieval systems that understand not just text, but intricate layouts, a core challenge in Visual Document Retrieval (VDR). The prevailing multi-vector architectures, while powerful, face a crucial storage bottleneck that current optimization strategies, such as embedding merging, pruning, or using abstract tokens, fail to resolve without compromising performance or ignoring vital layout cues. To address this, we introduce ColParse, a novel paradigm that leverages a document parsing model to generate a small set of layout-informed sub-image embeddings, which are then fused with a global page-level vector to create a compact and structurally-aware multi-vector representation. Extensive experiments demonstrate that our method reduces storage requirements by over 95% while simultaneously yielding significant performance gains across numerous benchmarks and base models. ColParse thus bridges the critical gap between the fine-grained accuracy of multi-vector retrieval and the practical demands of large-scale deployment, offering a new path towards efficient and interpretable multimodal information systems.

Oltre la Griglia: Recupero Multi-Vettoriale Informato dal Layout con Rappresentazioni Analizzate di Documenti Visivi

Beyond the Grid: Layout-Informed Multi-Vector Retrieval with Parsed Visual Document Representations

Abstract

Support