Meta-Aprendizagem por Reforço com Autorreflexão para Busca Agêntica
Meta-Reinforcement Learning with Self-Reflection for Agentic Search
March 11, 2026
Autores: Teng Xiao, Yige Yuan, Hamish Ivison, Huaisheng Zhu, Faeze Brahman, Nathan Lambert, Pradeep Dasigi, Noah A. Smith, Hannaneh Hajishirzi
cs.AI
Resumo
Este artigo introduz o MR-Search, uma formulação de meta aprendizagem por reforço (RL) contextual para busca agentiva com autorreflexão. Em vez de otimizar uma política dentro de um único episódio independente com recompensas esparsas, o MR-Search treina uma política que se condiciona a episódios passados e adapta sua estratégia de busca ao longo dos episódios. O MR-Search aprende a aprender uma estratégia de busca com autorreflexão, permitindo que os agentes de busca melhorem a exploração contextual durante o teste. Especificamente, o MR-Search realiza uma exploração trans-episódica gerando autorreflexões explícitas após cada episódio e aproveitando-as como contexto adicional para orientar tentativas subsequentes, promovendo assim uma exploração mais eficaz durante o teste. Introduzimos ainda um algoritmo de RL multi-turno que estima uma vantagem relativa densa ao nível do turno, permitindo uma atribuição de crédito refinada em cada episódio. Resultados empíricos em vários benchmarks demonstram as vantagens do MR-Search sobre abordagens baseadas em RL, mostrando forte generalização e melhorias relativas de 9,2% a 19,3% em oito benchmarks. Nosso código e dados estão disponíveis em https://github.com/tengxiao1/MR-Search.
English
This paper introduces MR-Search, an in-context meta reinforcement learning (RL) formulation for agentic search with self-reflection. Instead of optimizing a policy within a single independent episode with sparse rewards, MR-Search trains a policy that conditions on past episodes and adapts its search strategy across episodes. MR-Search learns to learn a search strategy with self-reflection, allowing search agents to improve in-context exploration at test-time. Specifically, MR-Search performs cross-episode exploration by generating explicit self-reflections after each episode and leveraging them as additional context to guide subsequent attempts, thereby promoting more effective exploration during test-time. We further introduce a multi-turn RL algorithm that estimates a dense relative advantage at the turn level, enabling fine-grained credit assignment on each episode. Empirical results across various benchmarks demonstrate the advantages of MR-Search over baselines based RL, showing strong generalization and relative improvements of 9.2% to 19.3% across eight benchmarks. Our code and data are available at https://github.com/tengxiao1/MR-Search.