arXiv: 2511.10240v1
ProgRAG: 知識グラフに基づく幻覚耐性を備えた漸進的検索と推論
ProgRAG: Hallucination-Resistant Progressive Retrieval and Reasoning over Knowledge Graphs
November 13, 2025
著者: Minbae Park, Hyemin Yang, Jeonghyun Kim, Kunsoo Park, Hyunjoon Kim
cs.AIcs.AIcs.CLcs.AI
要旨
大規模言語モデル(LLMs)は強力な推論能力を示す一方で、幻覚や透明性の低さに課題を抱えている。最近では、知識グラフ(KGs)を統合したKG-enhanced LLMsが、特に複雑で知識集約的なタスクにおいて推論性能を向上させることが示されている。しかし、これらの手法は依然として重大な課題に直面しており、不正確な検索や推論の失敗が挙げられる。これらの問題は、長い入力コンテキストによって関連情報が不明瞭になることや、異なる質問タイプに必要なより豊かな論理的方向性を捉えることが難しいコンテキスト構築によって悪化することが多い。さらに、これらのアプローチの多くは、LLMsがKGsから直接証拠を検索し、その証拠の十分性を自己評価することを依存しており、これが早期または誤った推論を引き起こすことが多い。検索と推論の失敗に対処するため、我々はProgRAGを提案する。これは、複雑な質問をサブ質問に分解し、各サブ質問に答えることで部分的な推論パスを段階的に拡張するマルチホップ知識グラフ質問応答(KGQA)フレームワークである。各ステップでは、外部検索器が候補となる証拠を収集し、LLMによる不確実性を考慮した枝刈りによって精緻化される。最後に、サブ質問の回答から得られた部分的な推論パスを整理・再配置することで、LLMの推論のためのコンテキストを最適化する。3つの有名なデータセットでの実験により、ProgRAGが既存のベースラインを上回り、信頼性と推論品質の向上を実現することが示された。
English
Large Language Models (LLMs) demonstrate strong reasoning capabilities but struggle with hallucinations and limited transparency. Recently, KG-enhanced LLMs that integrate knowledge graphs (KGs) have been shown to improve reasoning performance, particularly for complex, knowledge-intensive tasks. However, these methods still face significant challenges, including inaccurate retrieval and reasoning failures, often exacerbated by long input contexts that obscure relevant information or by context constructions that struggle to capture the richer logical directions required by different question types. Furthermore, many of these approaches rely on LLMs to directly retrieve evidence from KGs, and to self-assess the sufficiency of this evidence, which often results in premature or incorrect reasoning. To address the retrieval and reasoning failures, we propose ProgRAG, a multi-hop knowledge graph question answering (KGQA) framework that decomposes complex questions into sub-questions, and progressively extends partial reasoning paths by answering each sub-question. At each step, external retrievers gather candidate evidence, which is then refined through uncertainty-aware pruning by the LLM. Finally, the context for LLM reasoning is optimized by organizing and rearranging the partial reasoning paths obtained from the sub-question answers. Experiments on three well-known datasets demonstrate that ProgRAG outperforms existing baselines in multi-hop KGQA, offering improved reliability and reasoning quality.