Mindscape-Aware Retrieval Augmented Generation per un Miglioramento della Comprensione di Contesti Lunghi

Abstract

Gli esseri umani comprendono testi lunghi e complessi basandosi su una rappresentazione semantica olistica del contenuto. Questa visione globale aiuta a organizzare le conoscenze pregresse, interpretare nuove informazioni e integrare prove disperse all'interno di un documento, come rivelato dalla Capacità di Consapevolezza del Mindscape umano in psicologia. Gli attuali sistemi di Retrieval-Augmented Generation (RAG) mancano di tale guida e quindi faticano con compiti che richiedono contesti estesi. In questo articolo, proponiamo Mindscape-Aware RAG (MiA-RAG), il primo approccio che fornisce ai sistemi RAG basati su LLM una consapevolezza esplicita del contesto globale. MiA-RAG costruisce un mindscape attraverso una summarizzazione gerarchica e condiziona sia il retrieval che la generazione su questa rappresentazione semantica globale. Ciò consente al retriever di formare embedding di query arricchiti e al generatore di ragionare sulle prove recuperate all'interno di un contesto globale coerente. Valutiamo MiA-RAG su diversi benchmark bilingue e per contesti lunghi, relativi alla comprensione basata su prove e al sense-making globale. Il sistema supera costantemente i baseline, e un'analisi più approfondita mostra che allinea i dettagli locali con una rappresentazione globale coerente, abilitando un retrieval e un ragionamento su contesti lunghi più simili a quelli umani.

English

Humans understand long and complex texts by relying on a holistic semantic representation of the content. This global view helps organize prior knowledge, interpret new information, and integrate evidence dispersed across a document, as revealed by the Mindscape-Aware Capability of humans in psychology. Current Retrieval-Augmented Generation (RAG) systems lack such guidance and therefore struggle with long-context tasks. In this paper, we propose Mindscape-Aware RAG (MiA-RAG), the first approach that equips LLM-based RAG systems with explicit global context awareness. MiA-RAG builds a mindscape through hierarchical summarization and conditions both retrieval and generation on this global semantic representation. This enables the retriever to form enriched query embeddings and the generator to reason over retrieved evidence within a coherent global context. We evaluate MiA-RAG across diverse long-context and bilingual benchmarks for evidence-based understanding and global sense-making. It consistently surpasses baselines, and further analysis shows that it aligns local details with a coherent global representation, enabling more human-like long-context retrieval and reasoning.

Mindscape-Aware Retrieval Augmented Generation per un Miglioramento della Comprensione di Contesti Lunghi

Mindscape-Aware Retrieval Augmented Generation for Improved Long Context Understanding

Abstract

Support