マイクロ・アクト:アクショナブルな自己推論による質問応答における知識衝突の緩和
Micro-Act: Mitigate Knowledge Conflict in Question Answering via Actionable Self-Reasoning
June 5, 2025
著者: Nan Huo, Jinyang Li, Bowen Qin, Ge Qu, Xiaolong Li, Xiaodong Li, Chenhao Ma, Reynold Cheng
cs.AI
要旨
検索拡張生成(RAG)システムは、しばしば「知識の衝突」に悩まされる。これは、検索された外部知識が大規模言語モデル(LLMs)の内在的・パラメトリックな知識と矛盾する現象であり、質問応答(QA)などの下流タスクの性能に悪影響を及ぼす。既存のアプローチでは、二つの知識源を並列に比較することで衝突を緩和しようとするが、これによりLLMsが冗長または長文脈に圧倒され、不整合を特定・緩和する能力が阻害されることがある。この問題に対処するため、本研究では「Micro-Act」というフレームワークを提案する。Micro-Actは、階層的なアクション空間を持ち、文脈の複雑さを自動的に認識し、各知識源を細粒度の比較シーケンスに適応的に分解する。これらの比較はアクション可能なステップとして表現され、表面的な文脈を超えた推論を可能にする。5つのベンチマークデータセットを用いた広範な実験を通じて、Micro-Actは、すべてのデータセットと3種類の衝突タイプにおいて、最先端のベースラインを大幅に上回るQA精度の向上を一貫して達成した。特に、時間的および意味的な衝突タイプでは、すべてのベースラインが著しく失敗する中で顕著な性能を示した。さらに重要なことに、Micro-Actは非衝突質問に対しても同時に堅牢な性能を発揮し、実世界のRAGアプリケーションにおける実用的な価値を強調している。
English
Retrieval-Augmented Generation (RAG) systems commonly suffer from Knowledge
Conflicts, where retrieved external knowledge contradicts the inherent,
parametric knowledge of large language models (LLMs). It adversely affects
performance on downstream tasks such as question answering (QA). Existing
approaches often attempt to mitigate conflicts by directly comparing two
knowledge sources in a side-by-side manner, but this can overwhelm LLMs with
extraneous or lengthy contexts, ultimately hindering their ability to identify
and mitigate inconsistencies. To address this issue, we propose Micro-Act a
framework with a hierarchical action space that automatically perceives context
complexity and adaptively decomposes each knowledge source into a sequence of
fine-grained comparisons. These comparisons are represented as actionable
steps, enabling reasoning beyond the superficial context. Through extensive
experiments on five benchmark datasets, Micro-Act consistently achieves
significant increase in QA accuracy over state-of-the-art baselines across all
5 datasets and 3 conflict types, especially in temporal and semantic types
where all baselines fail significantly. More importantly, Micro-Act exhibits
robust performance on non-conflict questions simultaneously, highlighting its
practical value in real-world RAG applications.