ChatPaper.aiChatPaper

Wie viel zusätzliche Schlussfolgerungsfähigkeit bringen retriever-gestützte Modelle über LLMs hinaus? Ein Benchmarking-Framework für Multi-Hop-Inferenzen über hybrides Wissen

How Much Reasoning Do Retrieval-Augmented Models Add beyond LLMs? A Benchmarking Framework for Multi-Hop Inference over Hybrid Knowledge

February 10, 2026
papers.authors: Junhong Lin, Bing Zhang, Song Wang, Ziyan Liu, Dan Gutfreund, Julian Shun, Yada Zhu
cs.AI

papers.abstract

Große Sprachmodelle (LLMs) haben nach wie vor Schwierigkeiten mit wissensintensiven Fragen, die aktuelle Informationen und mehrstufiges Schlussfolgern erfordern. Die Erweiterung von LLMs durch hybrides externes Wissen, wie unstrukturierten Text und strukturierte Wissensgraphen, bietet eine vielversprechende Alternative zur kostspieligen kontinuierlichen Vortrainierung. Daher wird eine zuverlässige Bewertung ihrer Retrieval- und Reasoning-Fähigkeiten entscheidend. Viele bestehende Benchmarks überschneiden sich jedoch zunehmend mit den Vortrainingsdaten von LLMs, was bedeutet, dass Antworten oder unterstützendes Wissen bereits in den Modellparametern kodiert sein können. Dies macht es schwierig, echtes Retrieval und Reasoning von parametrischem Abruf zu unterscheiden. Wir stellen HybridRAG-Bench vor, ein Framework zur Konstruktion von Benchmarks zur Bewertung von retrieval-intensivem, mehrstufigem Reasoning über hybrides Wissen. HybridRAG-Bench koppelt automatisch unstrukturierte Text- und strukturierte Wissensgraphen-Repräsentationen, die aus aktueller wissenschaftlicher Literatur auf arXiv abgeleitet werden, und erzeugt wissensintensive Frage-Antwort-Paare, die auf expliziten Reasoning-Pfaden basieren. Das Framework unterstützt eine flexible Auswahl von Domänen und Zeiträumen und ermöglicht so eine kontaminationsbewusste und anpassbare Bewertung, während sich Modelle und Wissen weiterentwickeln. Experimente in drei Domänen (Künstliche Intelligenz, Regierungsführung und Politik sowie Bioinformatik) zeigen, dass HybridRAG-Bench echtes Retrieval und Reasoning belohnt anstatt parametrischen Abruf, und bietet somit eine prinzipielle Testumgebung zur Bewertung hybrider, wissensverstärkter Reasoning-Systeme. Wir veröffentlichen unseren Code und unsere Daten unter github.com/junhongmit/HybridRAG-Bench.
English
Large language models (LLMs) continue to struggle with knowledge-intensive questions that require up-to-date information and multi-hop reasoning. Augmenting LLMs with hybrid external knowledge, such as unstructured text and structured knowledge graphs, offers a promising alternative to costly continual pretraining. As such, reliable evaluation of their retrieval and reasoning capabilities becomes critical. However, many existing benchmarks increasingly overlap with LLM pretraining data, which means answers or supporting knowledge may already be encoded in model parameters, making it difficult to distinguish genuine retrieval and reasoning from parametric recall. We introduce HybridRAG-Bench, a framework for constructing benchmarks to evaluate retrieval-intensive, multi-hop reasoning over hybrid knowledge. HybridRAG-Bench automatically couples unstructured text and structured knowledge graph representations derived from recent scientific literature on arXiv, and generates knowledge-intensive question-answer pairs grounded in explicit reasoning paths. The framework supports flexible domain and time-frame selection, enabling contamination-aware and customizable evaluation as models and knowledge evolve. Experiments across three domains (artificial intelligence, governance and policy, and bioinformatics) demonstrate that HybridRAG-Bench rewards genuine retrieval and reasoning rather than parametric recall, offering a principled testbed for evaluating hybrid knowledge-augmented reasoning systems. We release our code and data at github.com/junhongmit/HybridRAG-Bench.
PDF11February 19, 2026