MCompassRAG: Themenmetadaten als semantischer Kompass für das Retrieval auf Absatzebene

Zusammenfassung

Retrieval-Augmented-Generation(RAG)-Systeme hängen entscheidend davon ab, wie Dokumente in Chunks aufgeteilt und durchsucht werden. Feinkörnige Chunks können die Retrieval-Präzision verbessern, vergrößern jedoch den Suchraum, was zu höherer Latenz und höheren Kosten führt; größere Chunks reduzieren die Anzahl der Kandidaten, machen aber die dichte Ähnlichkeit weniger zuverlässig, da die Repräsentation jedes Chunks mehrere Themen vermischt und mehr semantisches Rauschen einführt. Dieser Kompromiss wird besonders in tiefgehenden Rechercheaufgaben limitierend, bei denen das Retrieval über große, heterogene Korpora hinweg sowohl schnell als auch präzise sein muss. Wir stellen MCompassRAG vor, ein metadatengeführtes Retrieval-Framework, das Signale auf Themenebene als semantischen Kompass zur Auswahl relevanter Evidenz nutzt. Anstatt sich nur auf die Kosinusähnlichkeit zwischen Anfragen und verrauschten Chunk-Embeddings zu verlassen, bereichert MCompassRAG die Chunk-Repräsentationen mit Themen-Metadaten im selben Embedding-Raum und trainiert einen leichten Retriever durch LLM-Teacher-Destillation. Zur Inferenzzeit führt MCompassRAG themenbewusstes Retrieval ohne zusätzliche LLM-Aufrufe durch, was sowohl die Effizienz als auch die Evidenzqualität verbessert. Über sechs komplexe Retrieval-Benchmarks hinweg verbessert MCompassRasp die Informationseffizienz (IE) um durchschnittlich 8,24 % bei einer mehr als fünffach geringeren Latenz im Vergleich zu den stärksten effizienten RAG-Baselines. Der Code ist verfügbar unter https://github.com/AmirAbaskohi/MCompassRAG.

English

Retrieval-augmented generation (RAG) systems depend critically on how documents are chunked and searched. Fine-grained chunks can improve retrieval precision but expand the search space, increasing latency and cost; larger chunks reduce the number of candidates but make dense similarity less reliable, as the representation for each chunk mixes multiple topics and introduces more semantic noise. This trade-off becomes especially limiting in deep research tasks, where retrieval must be both fast and precise across large, heterogeneous corpora. We introduce MCompassRAG, a metadata-guided retrieval framework that uses topic-level signals as a semantic compass for selecting relevant evidence. Instead of relying only on cosine similarity between queries and noisy chunk embeddings, MCompassRAG enriches chunk representations with topic metadata in the same embedding space and trains a lightweight retriever through LLM-teacher distillation. At inference time, MCompassRAG performs topic-aware retrieval without additional LLM calls, improving both efficiency and evidence quality. Across six complex retrieval benchmarks, MCompassRAG improves information efficiency (IE) by 8.24% on average with over 5 times lower latency than the strongest efficient RAG baselines. Code is available on https://github.com/AmirAbaskohi/MCompassRAG.