Hoeveel Redeneervermogen Voegen Retrieval-augmented Modellen Toe Bovenop LLM's? Een Benchmarking Framework voor Multi-Hop Inferentie over Hybride Kennis

Samenvatting

Grote taalmodellen (LLM's) blijven moeite hebben met kennisintensieve vragen die actuele informatie en multi-hop redenering vereisen. Het verrijken van LLM's met hybride externe kennis, zoals ongestructureerde tekst en gestructureerde kennisgrafieken, biedt een veelbelovend alternatief voor kostbare continue voortraining. Daarom wordt een betrouwbare evaluatie van hun retrieval- en redeneervermogen cruciaal. Veel bestaande benchmarks overlappen echter in toenemende mate met de voortrainingsdata van LLM's, wat betekent dat antwoorden of ondersteunende kennis mogelijk al in de modelparameters zijn gecodeerd. Dit maakt het moeilijk om echte retrieval en redenering te onderscheiden van parametrische herinnering. Wij introduceren HybridRAG-Bench, een raamwerk voor het construeren van benchmarks om retrieval-intensieve, multi-hop redenering over hybride kennis te evalueren. HybridRAG-Bench koppelt automatisch ongestructureerde tekst en gestructureerde kennisgrafiekrepresentaties afgeleid van recente wetenschappelijke literatuur op arXiv, en genereert kennisintensieve vraag-antwoordparen gebaseerd op expliciete redeneerpaden. Het raamwerk ondersteunt flexibele domein- en tijdsselectie, waardoor contaminatiebewuste en aanpasbare evaluatie mogelijk wordt naarmate modellen en kennis evolueren. Experimenten in drie domeinen (kunstmatige intelligentie, bestuur en beleid, en bio-informatica) tonen aan dat HybridRAG-Bench echte retrieval en redenering beloont in plaats van parametrische herinnering, en biedt zo een principieel testplatform voor het evalueren van hybride kennisverrijkte redeneersystemen. Wij geven onze code en data vrij op github.com/junhongmit/HybridRAG-Bench.

English

Large language models (LLMs) continue to struggle with knowledge-intensive questions that require up-to-date information and multi-hop reasoning. Augmenting LLMs with hybrid external knowledge, such as unstructured text and structured knowledge graphs, offers a promising alternative to costly continual pretraining. As such, reliable evaluation of their retrieval and reasoning capabilities becomes critical. However, many existing benchmarks increasingly overlap with LLM pretraining data, which means answers or supporting knowledge may already be encoded in model parameters, making it difficult to distinguish genuine retrieval and reasoning from parametric recall. We introduce HybridRAG-Bench, a framework for constructing benchmarks to evaluate retrieval-intensive, multi-hop reasoning over hybrid knowledge. HybridRAG-Bench automatically couples unstructured text and structured knowledge graph representations derived from recent scientific literature on arXiv, and generates knowledge-intensive question-answer pairs grounded in explicit reasoning paths. The framework supports flexible domain and time-frame selection, enabling contamination-aware and customizable evaluation as models and knowledge evolve. Experiments across three domains (artificial intelligence, governance and policy, and bioinformatics) demonstrate that HybridRAG-Bench rewards genuine retrieval and reasoning rather than parametric recall, offering a principled testbed for evaluating hybrid knowledge-augmented reasoning systems. We release our code and data at github.com/junhongmit/HybridRAG-Bench.

Hoeveel Redeneervermogen Voegen Retrieval-augmented Modellen Toe Bovenop LLM's? Een Benchmarking Framework voor Multi-Hop Inferentie over Hybride Kennis

How Much Reasoning Do Retrieval-Augmented Models Add beyond LLMs? A Benchmarking Framework for Multi-Hop Inference over Hybrid Knowledge

Samenvatting

Support