Raciocínio Sinérgico de Conhecimento Interno-Externo Reforçado para Agente de Busca Adaptativa Eficiente
Reinforced Internal-External Knowledge Synergistic Reasoning for Efficient Adaptive Search Agent
May 12, 2025
Autores: Ziyang Huang, Xiaowei Yuan, Yiming Ju, Jun Zhao, Kang Liu
cs.AI
Resumo
A geração aumentada por recuperação (RAG) é uma estratégia comum para reduzir alucinações em Modelos de Linguagem de Grande Escala (LLMs). Embora o aprendizado por reforço (RL) possa permitir que LLMs atuem como agentes de busca ao ativar capacidades de recuperação, os modelos existentes frequentemente subutilizam seu conhecimento interno. Isso pode levar a recuperações redundantes, potenciais conflitos de conhecimento prejudiciais e aumento da latência de inferência. Para abordar essas limitações, é urgentemente necessário um agente de busca eficiente e adaptativo, capaz de discernir o momento ideal para recuperação e integrar sinergicamente conhecimento paramétrico (interno) e recuperado (externo). Este artigo introduz o Agente de Raciocínio Sinérgico de Conhecimento Interno-Externo Reforçado (IKEA), que pode identificar seu próprio limite de conhecimento e priorizar a utilização do conhecimento interno, recorrendo à busca externa apenas quando o conhecimento interno é considerado insuficiente. Isso é alcançado por meio de uma nova função de recompensa consciente do limite de conhecimento e um conjunto de dados de treinamento consciente do limite de conhecimento. Esses elementos são projetados para RL orientado à sinergia de conhecimento interno-externo, incentivando o modelo a fornecer respostas precisas, minimizar recuperações desnecessárias e encorajar buscas externas apropriadas quando seu próprio conhecimento é insuficiente. Avaliações em várias tarefas de raciocínio de conhecimento demonstram que o IKEA supera significativamente os métodos de base, reduz a frequência de recuperação de forma significativa e exibe capacidades robustas de generalização.
English
Retrieval-augmented generation (RAG) is a common strategy to reduce
hallucinations in Large Language Models (LLMs). While reinforcement learning
(RL) can enable LLMs to act as search agents by activating retrieval
capabilities, existing ones often underutilize their internal knowledge. This
can lead to redundant retrievals, potential harmful knowledge conflicts, and
increased inference latency. To address these limitations, an efficient and
adaptive search agent capable of discerning optimal retrieval timing and
synergistically integrating parametric (internal) and retrieved (external)
knowledge is in urgent need. This paper introduces the Reinforced
Internal-External Knowledge Synergistic Reasoning Agent (IKEA), which could
indentify its own knowledge boundary and prioritize the utilization of internal
knowledge, resorting to external search only when internal knowledge is deemed
insufficient. This is achieved using a novel knowledge-boundary aware reward
function and a knowledge-boundary aware training dataset. These are designed
for internal-external knowledge synergy oriented RL, incentivizing the model to
deliver accurate answers, minimize unnecessary retrievals, and encourage
appropriate external searches when its own knowledge is lacking. Evaluations
across multiple knowledge reasoning tasks demonstrate that IKEA significantly
outperforms baseline methods, reduces retrieval frequency significantly, and
exhibits robust generalization capabilities.