Meta-Aprendizaje por Refuerzo con Auto-Reflexión para Búsqueda Agéntica
Meta-Reinforcement Learning with Self-Reflection for Agentic Search
March 11, 2026
Autores: Teng Xiao, Yige Yuan, Hamish Ivison, Huaisheng Zhu, Faeze Brahman, Nathan Lambert, Pradeep Dasigi, Noah A. Smith, Hannaneh Hajishirzi
cs.AI
Resumen
Este artículo presenta MR-Search, una formulación de meta aprendizaje por refuerzo (RL) en contexto para búsqueda agentiva con autorreflexión. En lugar de optimizar una política dentro de un único episodio independiente con recompensas dispersas, MR-Search entrena una política que se condiciona en episodios pasados y adapta su estrategia de búsqueda a lo largo de los episodios. MR-Search aprende a aprender una estrategia de búsqueda con autorreflexión, permitiendo que los agentes de búsqueda mejoren la exploración en contexto durante el tiempo de prueba. Específicamente, MR-Search realiza una exploración trans-episodio generando autorreflexiones explícitas después de cada episodio y aprovechándolas como contexto adicional para guiar intentos posteriores, promoviendo así una exploración más efectiva durante las pruebas. Además, introducimos un algoritmo de RL multi-turno que estima una ventaja relativa densa a nivel de turno, permitiendo una asignación de crédito de grano fino en cada episodio. Los resultados empíricos en varios puntos de referencia demuestran las ventajas de MR-Search sobre los métodos basados en RL, mostrando una fuerte generalización y mejoras relativas del 9.2% al 19.3% en ocho benchmarks. Nuestro código y datos están disponibles en https://github.com/tengxiao1/MR-Search.
English
This paper introduces MR-Search, an in-context meta reinforcement learning (RL) formulation for agentic search with self-reflection. Instead of optimizing a policy within a single independent episode with sparse rewards, MR-Search trains a policy that conditions on past episodes and adapts its search strategy across episodes. MR-Search learns to learn a search strategy with self-reflection, allowing search agents to improve in-context exploration at test-time. Specifically, MR-Search performs cross-episode exploration by generating explicit self-reflections after each episode and leveraging them as additional context to guide subsequent attempts, thereby promoting more effective exploration during test-time. We further introduce a multi-turn RL algorithm that estimates a dense relative advantage at the turn level, enabling fine-grained credit assignment on each episode. Empirical results across various benchmarks demonstrate the advantages of MR-Search over baselines based RL, showing strong generalization and relative improvements of 9.2% to 19.3% across eight benchmarks. Our code and data are available at https://github.com/tengxiao1/MR-Search.