ChatPaper.aiChatPaper

大規模言語モデルを超えて検索拡張モデルはどれだけの推論能力を付加するか?ハイブリッド知識に基づくマルチホップ推論のベンチマークフレームワーク

How Much Reasoning Do Retrieval-Augmented Models Add beyond LLMs? A Benchmarking Framework for Multi-Hop Inference over Hybrid Knowledge

February 10, 2026
著者: Junhong Lin, Bing Zhang, Song Wang, Ziyan Liu, Dan Gutfreund, Julian Shun, Yada Zhu
cs.AI

要旨

大規模言語モデル(LLM)は、最新情報を必要とする知識集約的な質問や、マルチホップ推論を要する課題に対して依然として苦戦を続けている。非構造化テキストや構造化ナレッジグラフといったハイブリッドな外部知識でLLMを拡張することは、コストのかかる継続的事前学習に代わる有望な手法である。そのため、それらの検索能力と推論能力を信頼性高く評価することが極めて重要となる。しかし、既存の多くのベンチマークはLLMの事前学習データとの重複が増えており、回答や根拠となる知識が既にモデルパラメータに符号化されている可能性がある。これにより、真の検索・推論能力と、パラメータに記憶された知識の想起とを区別することが困難になっている。本論文では、ハイブリッドな知識に対する検索集約型のマルチホップ推論を評価するベンチマークを構築するためのフレームワーク、HybridRAG-Benchを提案する。HybridRAG-Benchは、arXiv上の最新の科学文献から導出された非構造化テキストと構造化ナレッジグラフ表現を自動的に組み合わせ、明示的な推論経路に基づいた知識集約的な質問応答ペアを生成する。本フレームワークは柔軟なドメインおよび期間の選択をサポートし、モデルと知識の進化に応じて、汚染を考慮したカスタマイズ可能な評価を可能にする。3つのドメイン(人工知能、ガバナンス・政策、バイオインフォマティクス)での実験により、HybridRAG-Benchがパラメータ記憶の想起ではなく、真の検索と推論を正しく評価できることが実証された。これは、ハイブリッド知識拡張推論システムを評価するための原理に基づいたテストベッドを提供するものである。コードとデータはgithub.com/junhongmit/HybridRAG-Benchで公開している。
English
Large language models (LLMs) continue to struggle with knowledge-intensive questions that require up-to-date information and multi-hop reasoning. Augmenting LLMs with hybrid external knowledge, such as unstructured text and structured knowledge graphs, offers a promising alternative to costly continual pretraining. As such, reliable evaluation of their retrieval and reasoning capabilities becomes critical. However, many existing benchmarks increasingly overlap with LLM pretraining data, which means answers or supporting knowledge may already be encoded in model parameters, making it difficult to distinguish genuine retrieval and reasoning from parametric recall. We introduce HybridRAG-Bench, a framework for constructing benchmarks to evaluate retrieval-intensive, multi-hop reasoning over hybrid knowledge. HybridRAG-Bench automatically couples unstructured text and structured knowledge graph representations derived from recent scientific literature on arXiv, and generates knowledge-intensive question-answer pairs grounded in explicit reasoning paths. The framework supports flexible domain and time-frame selection, enabling contamination-aware and customizable evaluation as models and knowledge evolve. Experiments across three domains (artificial intelligence, governance and policy, and bioinformatics) demonstrate that HybridRAG-Bench rewards genuine retrieval and reasoning rather than parametric recall, offering a principled testbed for evaluating hybrid knowledge-augmented reasoning systems. We release our code and data at github.com/junhongmit/HybridRAG-Bench.
PDF11February 19, 2026