마이크로 액트: 실행 가능한 자기 추론을 통한 질문 응답에서의 지식 충돌 완화
Micro-Act: Mitigate Knowledge Conflict in Question Answering via Actionable Self-Reasoning
June 5, 2025
저자: Nan Huo, Jinyang Li, Bowen Qin, Ge Qu, Xiaolong Li, Xiaodong Li, Chenhao Ma, Reynold Cheng
cs.AI
초록
검색 강화 생성(Retrieval-Augmented Generation, RAG) 시스템은 일반적으로 지식 충돌(Knowledge Conflicts) 문제를 겪는데, 이는 검색된 외부 지식이 대형 언어 모델(Large Language Models, LLMs)의 내재적, 파라미터적 지식과 상충하는 경우를 말한다. 이는 질의응답(Question Answering, QA)과 같은 하위 작업의 성능에 부정적인 영향을 미친다. 기존의 접근 방식은 종종 두 지식 소스를 나란히 비교하여 충돌을 완화하려고 시도하지만, 이는 LLMs에 불필요하거나 지나치게 긴 문맥을 제공하여 일관성을 식별하고 완화하는 능력을 저해할 수 있다. 이러한 문제를 해결하기 위해, 우리는 문맥 복잡성을 자동으로 인지하고 각 지식 소스를 세분화된 비교 시퀀스로 적응적으로 분해하는 계층적 행동 공간을 가진 Micro-Act 프레임워크를 제안한다. 이러한 비교는 실행 가능한 단계로 표현되어 표면적인 문맥을 넘어서는 추론을 가능하게 한다. 5개의 벤치마크 데이터셋에 대한 광범위한 실험을 통해, Micro-Act는 모든 5개의 데이터셋과 3가지 충돌 유형에서 최신 베이스라인 대비 QA 정확도를 크게 향상시켰으며, 특히 시간적 및 의미적 유형에서 모든 베이스라인이 크게 실패한 경우에도 뛰어난 성능을 보였다. 더 중요한 것은, Micro-Act가 비충돌 질문에서도 동시에 견고한 성능을 보여, 실제 RAG 애플리케이션에서의 실용적 가치를 강조한다.
English
Retrieval-Augmented Generation (RAG) systems commonly suffer from Knowledge
Conflicts, where retrieved external knowledge contradicts the inherent,
parametric knowledge of large language models (LLMs). It adversely affects
performance on downstream tasks such as question answering (QA). Existing
approaches often attempt to mitigate conflicts by directly comparing two
knowledge sources in a side-by-side manner, but this can overwhelm LLMs with
extraneous or lengthy contexts, ultimately hindering their ability to identify
and mitigate inconsistencies. To address this issue, we propose Micro-Act a
framework with a hierarchical action space that automatically perceives context
complexity and adaptively decomposes each knowledge source into a sequence of
fine-grained comparisons. These comparisons are represented as actionable
steps, enabling reasoning beyond the superficial context. Through extensive
experiments on five benchmark datasets, Micro-Act consistently achieves
significant increase in QA accuracy over state-of-the-art baselines across all
5 datasets and 3 conflict types, especially in temporal and semantic types
where all baselines fail significantly. More importantly, Micro-Act exhibits
robust performance on non-conflict questions simultaneously, highlighting its
practical value in real-world RAG applications.