Quanto Ragionamento Aggiungono i Modelli Potenziati dal Recupero Oltre i LLM? Un Framework di Benchmarking per l'Inferenza Multi-Hop su Conoscenza Ibrida
How Much Reasoning Do Retrieval-Augmented Models Add beyond LLMs? A Benchmarking Framework for Multi-Hop Inference over Hybrid Knowledge
February 10, 2026
Autori: Junhong Lin, Bing Zhang, Song Wang, Ziyan Liu, Dan Gutfreund, Julian Shun, Yada Zhu
cs.AI
Abstract
I grandi modelli linguistici (LLM) continuano ad avere difficoltà con domande ad alta intensità di conoscenza che richiedono informazioni aggiornate e ragionamenti multi-hop. Il potenziamento degli LLM con conoscenze esterne ibride, come testo non strutturato e grafi di conoscenza strutturati, offre un'alternativa promettente ai costosi addestramenti continui. Pertanto, una valutazione affidabile delle loro capacità di recupero e ragionamento diventa cruciale. Tuttavia, molti benchmark esistenti si sovrappongono sempre più ai dati di pre-addestramento degli LLM, il che significa che le risposte o le conoscenze di supporto potrebbero essere già codificate nei parametri del modello, rendendo difficile distinguere il genuino recupero e ragionamento dal richiamo parametrico. Introduciamo HybridRAG-Bench, un framework per costruire benchmark per valutare il ragionamento multi-hop ad alta intensità di recupero su conoscenze ibride. HybridRAG-Bench accoppia automaticamente rappresentazioni di testo non strutturato e grafi di conoscenza strutturati derivati dalla recente letteratura scientifica su arXiv e genera coppie domanda-risposta ad alta intensità di conoscenza basate su percorsi di ragionamento espliciti. Il framework supporta una selezione flessibile del dominio e dell'intervallo temporale, consentendo una valutazione personalizzata e consapevole della contaminazione man mano che i modelli e le conoscenze evolvono. Esperimenti condotti in tre domini (intelligenza artificiale, governance e politica, e bioinformatica) dimostrano che HybridRAG-Bench premia il genuino recupero e ragionamento piuttosto che il richiamo parametrico, offrendo un banco di prova strutturato per valutare sistemi di ragionamento potenziati da conoscenze ibride. Rilasciamo il nostro codice e i nostri dati su github.com/junhongmit/HybridRAG-Bench.
English
Large language models (LLMs) continue to struggle with knowledge-intensive questions that require up-to-date information and multi-hop reasoning. Augmenting LLMs with hybrid external knowledge, such as unstructured text and structured knowledge graphs, offers a promising alternative to costly continual pretraining. As such, reliable evaluation of their retrieval and reasoning capabilities becomes critical. However, many existing benchmarks increasingly overlap with LLM pretraining data, which means answers or supporting knowledge may already be encoded in model parameters, making it difficult to distinguish genuine retrieval and reasoning from parametric recall. We introduce HybridRAG-Bench, a framework for constructing benchmarks to evaluate retrieval-intensive, multi-hop reasoning over hybrid knowledge. HybridRAG-Bench automatically couples unstructured text and structured knowledge graph representations derived from recent scientific literature on arXiv, and generates knowledge-intensive question-answer pairs grounded in explicit reasoning paths. The framework supports flexible domain and time-frame selection, enabling contamination-aware and customizable evaluation as models and knowledge evolve. Experiments across three domains (artificial intelligence, governance and policy, and bioinformatics) demonstrate that HybridRAG-Bench rewards genuine retrieval and reasoning rather than parametric recall, offering a principled testbed for evaluating hybrid knowledge-augmented reasoning systems. We release our code and data at github.com/junhongmit/HybridRAG-Bench.