MCompassRAG: Topicmetadata als semantisch kompas voor retrieval op paragraafniveau

Samenvatting

Retrieval-augmented generation (RAG)-systemen zijn sterk afhankelijk van de manier waarop documenten worden opgedeeld en doorzocht. Fijnkorrelige chunks kunnen de retrievalprecisie verbeteren, maar vergroten de zoekruimte, wat leidt tot hogere latentie en kosten; grotere chunks verminderen het aantal kandidaten, maar maken dense gelijkenis minder betrouwbaar, doordat de representatie van elke chunk meerdere onderwerpen mengt en meer semantische ruis introduceert. Deze afweging is vooral beperkend bij diepgaande onderzoekstaken, waar retrieval zowel snel als precies moet zijn over grote, heterogene corpora. We introduceren MCompassRAG, een metadata-gestuurd retrievalsysteem dat onderwerpsignalen gebruikt als een semantisch kompas voor het selecteren van relevant bewijs. In plaats van alleen te vertrouwen op cosinusgelijkenis tussen query's en ruizige chunk-embeddings, verrijkt MCompassRAG chunk-representaties met onderwerpmetadata in dezelfde embeddingruimte en traint een lichtgewicht retriever via LLM-leraardistillatie. Tijdens inferentie voert MCompassRAG onderwerp-bewuste retrieval uit zonder extra LLM-aanroepen, wat zowel efficiëntie als bewijskwaliteit verbetert. Op zes complexe retrieval-benchmarks verbetert MCompassRAG de informatie-efficiëntie (IE) gemiddeld met 8,24% bij een meer dan 5 keer lagere latentie dan de sterkste efficiënte RAG-baselines. Code is beschikbaar op https://github.com/AmirAbaskohi/MCompassRAG.

English

Retrieval-augmented generation (RAG) systems depend critically on how documents are chunked and searched. Fine-grained chunks can improve retrieval precision but expand the search space, increasing latency and cost; larger chunks reduce the number of candidates but make dense similarity less reliable, as the representation for each chunk mixes multiple topics and introduces more semantic noise. This trade-off becomes especially limiting in deep research tasks, where retrieval must be both fast and precise across large, heterogeneous corpora. We introduce MCompassRAG, a metadata-guided retrieval framework that uses topic-level signals as a semantic compass for selecting relevant evidence. Instead of relying only on cosine similarity between queries and noisy chunk embeddings, MCompassRAG enriches chunk representations with topic metadata in the same embedding space and trains a lightweight retriever through LLM-teacher distillation. At inference time, MCompassRAG performs topic-aware retrieval without additional LLM calls, improving both efficiency and evidence quality. Across six complex retrieval benchmarks, MCompassRAG improves information efficiency (IE) by 8.24% on average with over 5 times lower latency than the strongest efficient RAG baselines. Code is available on https://github.com/AmirAbaskohi/MCompassRAG.