Meta-Apprendimento per Rinforzo con Auto-Riflessione per la Ricerca Agente
Meta-Reinforcement Learning with Self-Reflection for Agentic Search
March 11, 2026
Autori: Teng Xiao, Yige Yuan, Hamish Ivison, Huaisheng Zhu, Faeze Brahman, Nathan Lambert, Pradeep Dasigi, Noah A. Smith, Hannaneh Hajishirzi
cs.AI
Abstract
Questo articolo introduce MR-Search, una formulazione di meta reinforcement learning (RL) contestuale per la ricerca agenziale con auto-riflessione. Invece di ottimizzare una politica all'interno di un singolo episodio indipendente con ricompense sparse, MR-Search addestra una politica che si condiziona sugli episodi passati e adatta la sua strategia di ricerca attraverso gli episodi. MR-Search impara ad apprendere una strategia di ricerca con auto-riflessione, consentendo agli agenti di ricerca di migliorare l'esplorazione contestuale durante il test. Nello specifico, MR-Search esegue un'esplorazione trans-episodica generando esplicite auto-riflessioni dopo ogni episodio e sfruttandole come contesto aggiuntivo per guidare i tentativi successivi, promuovendo così un'esplorazione più efficace durante il test. Introduciamo inoltre un algoritmo RL multi-turno che stima un vantaggio relativo denso a livello di turno, consentendo un'assegnazione del credito granulare su ogni episodio. I risultati empirici su vari benchmark dimostrano i vantaggi di MR-Search rispetto ai metodi RL basali, mostrando una forte generalizzazione e miglioramenti relativi dal 9,2% al 19,3% su otto benchmark. Il nostro codice e i nostri dati sono disponibili all'indirizzo https://github.com/tengxiao1/MR-Search.
English
This paper introduces MR-Search, an in-context meta reinforcement learning (RL) formulation for agentic search with self-reflection. Instead of optimizing a policy within a single independent episode with sparse rewards, MR-Search trains a policy that conditions on past episodes and adapts its search strategy across episodes. MR-Search learns to learn a search strategy with self-reflection, allowing search agents to improve in-context exploration at test-time. Specifically, MR-Search performs cross-episode exploration by generating explicit self-reflections after each episode and leveraging them as additional context to guide subsequent attempts, thereby promoting more effective exploration during test-time. We further introduce a multi-turn RL algorithm that estimates a dense relative advantage at the turn level, enabling fine-grained credit assignment on each episode. Empirical results across various benchmarks demonstrate the advantages of MR-Search over baselines based RL, showing strong generalization and relative improvements of 9.2% to 19.3% across eight benchmarks. Our code and data are available at https://github.com/tengxiao1/MR-Search.