효율적인 적응형 탐색 에이전트를 위한 강화된 내부-외부 지식 시너지 추론
Reinforced Internal-External Knowledge Synergistic Reasoning for Efficient Adaptive Search Agent
May 12, 2025
저자: Ziyang Huang, Xiaowei Yuan, Yiming Ju, Jun Zhao, Kang Liu
cs.AI
초록
검색 강화 생성(Retrieval-Augmented Generation, RAG)은 대형 언어 모델(LLMs)의 환각 현상을 줄이기 위한 일반적인 전략입니다. 강화 학습(RL)을 통해 LLM이 검색 기능을 활성화하여 검색 에이전트로 작동할 수 있지만, 기존 방법들은 내부 지식을 충분히 활용하지 못하는 경우가 많습니다. 이로 인해 불필요한 검색, 잠재적인 유해한 지식 충돌, 그리고 추론 지연 시간 증가가 발생할 수 있습니다. 이러한 한계를 해결하기 위해, 최적의 검색 시기를 판단하고 파라미터 기반(내부) 지식과 검색된(외부) 지식을 시너지 효과적으로 통합할 수 있는 효율적이고 적응형 검색 에이전트가 시급히 필요합니다. 본 논문은 강화된 내부-외부 지식 시너지 추론 에이전트(Reinforced Internal-External Knowledge Synergistic Reasoning Agent, IKEA)를 소개합니다. IKEA는 자신의 지식 경계를 식별하고 내부 지식의 활용을 우선시하며, 내부 지식이 부족하다고 판단될 때만 외부 검색에 의존합니다. 이는 새로운 지식 경계 인식 보상 함수와 지식 경계 인식 훈련 데이터셋을 통해 달성됩니다. 이들은 내부-외부 지식 시너지 지향 강화 학습을 위해 설계되어, 모델이 정확한 답변을 제공하고 불필요한 검색을 최소화하며, 자신의 지식이 부족할 때 적절한 외부 검색을 장려하도록 합니다. 다양한 지식 추론 작업에 대한 평가 결과, IKEA는 기준 방법들을 크게 능가하며, 검색 빈도를 현저히 줄이고, 강력한 일반화 능력을 보여줍니다.
English
Retrieval-augmented generation (RAG) is a common strategy to reduce
hallucinations in Large Language Models (LLMs). While reinforcement learning
(RL) can enable LLMs to act as search agents by activating retrieval
capabilities, existing ones often underutilize their internal knowledge. This
can lead to redundant retrievals, potential harmful knowledge conflicts, and
increased inference latency. To address these limitations, an efficient and
adaptive search agent capable of discerning optimal retrieval timing and
synergistically integrating parametric (internal) and retrieved (external)
knowledge is in urgent need. This paper introduces the Reinforced
Internal-External Knowledge Synergistic Reasoning Agent (IKEA), which could
indentify its own knowledge boundary and prioritize the utilization of internal
knowledge, resorting to external search only when internal knowledge is deemed
insufficient. This is achieved using a novel knowledge-boundary aware reward
function and a knowledge-boundary aware training dataset. These are designed
for internal-external knowledge synergy oriented RL, incentivizing the model to
deliver accurate answers, minimize unnecessary retrievals, and encourage
appropriate external searches when its own knowledge is lacking. Evaluations
across multiple knowledge reasoning tasks demonstrate that IKEA significantly
outperforms baseline methods, reduces retrieval frequency significantly, and
exhibits robust generalization capabilities.Summary
AI-Generated Summary