LLM 대비 검색 증강 모델은 얼마나 많은 추론 능력을 추가하는가? 하이브리드 지식에 대한 다중 홉 추론을 위한 벤치마킹 프레임워크
How Much Reasoning Do Retrieval-Augmented Models Add beyond LLMs? A Benchmarking Framework for Multi-Hop Inference over Hybrid Knowledge
February 10, 2026
저자: Junhong Lin, Bing Zhang, Song Wang, Ziyan Liu, Dan Gutfreund, Julian Shun, Yada Zhu
cs.AI
초록
대규모 언어 모델(LLM)은 최신 정보와 다중 홉 추론을 요구하는 지식 집약적 질문을 처리하는 데 여전히 어려움을 겪고 있습니다. 비정형 텍스트와 구조화된 지식 그래프 같은 하이브리드 외부 지식으로 LLM을 증강시키는 것은 비용이 많이 드는 지속적 사전 학습에 대한 유망한 대안을 제공합니다. 이에 따라 검색 및 추론 능력에 대한 신뢰할 수 있는 평가가 중요해졌습니다. 그러나 기존 벤치마크 중 상당수는 LLM 사전 학습 데이터와 점점 더 중복되어, 답변이나 지원 지식이 이미 모델 매개변수에 인코딩되어 있을 수 있어 진정한 검색 및 추론과 매개변수 기억을 구분하기 어렵게 만듭니다. 우리는 하이브리드 지식에 대한 검색 집약적 다중 홉 추론을 평가하기 위한 벤치마크 구축 프레임워크인 HybridRAG-Bench를 소개합니다. HybridRAG-Bench는 arXiv의 최신 과학 논문에서 도출된 비정형 텍스트와 구조화된 지식 그래프 표현을 자동으로 결합하고, 명시적 추론 경로에 기반한 지식 집약적 질문-답변 쌍을 생성합니다. 이 프레임워크는 유연한 도메인 및 시간대 선택을 지원하여 모델과 지식이 진화함에 따라 오염을 고려하고 맞춤형 평가를 가능하게 합니다. 인공지능, 거버넌스 및 정책, 생물정보학이라는 세 가지 도메인에 대한 실험은 HybridRAG-Bench가 매개변수 기억이 아닌 진정한 검색과 추론을 평가할 수 있음을 보여주며, 하이브리드 지식 증강 추론 시스템을 평가하기 위한 원칙적인 테스트베드를 제공합니다. 우리는 코드와 데이터를 github.com/junhongmit/HybridRAG-Bench에서 공개합니다.
English
Large language models (LLMs) continue to struggle with knowledge-intensive questions that require up-to-date information and multi-hop reasoning. Augmenting LLMs with hybrid external knowledge, such as unstructured text and structured knowledge graphs, offers a promising alternative to costly continual pretraining. As such, reliable evaluation of their retrieval and reasoning capabilities becomes critical. However, many existing benchmarks increasingly overlap with LLM pretraining data, which means answers or supporting knowledge may already be encoded in model parameters, making it difficult to distinguish genuine retrieval and reasoning from parametric recall. We introduce HybridRAG-Bench, a framework for constructing benchmarks to evaluate retrieval-intensive, multi-hop reasoning over hybrid knowledge. HybridRAG-Bench automatically couples unstructured text and structured knowledge graph representations derived from recent scientific literature on arXiv, and generates knowledge-intensive question-answer pairs grounded in explicit reasoning paths. The framework supports flexible domain and time-frame selection, enabling contamination-aware and customizable evaluation as models and knowledge evolve. Experiments across three domains (artificial intelligence, governance and policy, and bioinformatics) demonstrate that HybridRAG-Bench rewards genuine retrieval and reasoning rather than parametric recall, offering a principled testbed for evaluating hybrid knowledge-augmented reasoning systems. We release our code and data at github.com/junhongmit/HybridRAG-Bench.