Meta-versterkend leren met zelfreflectie voor agent-gericht zoeken
Meta-Reinforcement Learning with Self-Reflection for Agentic Search
March 11, 2026
Auteurs: Teng Xiao, Yige Yuan, Hamish Ivison, Huaisheng Zhu, Faeze Brahman, Nathan Lambert, Pradeep Dasigi, Noah A. Smith, Hannaneh Hajishirzi
cs.AI
Samenvatting
Dit artikel introduceert MR-Search, een in-context meta reinforcement learning (RL) formulering voor agent-gebaseerd zoeken met zelfreflectie. In plaats van een beleid te optimaliseren binnen één enkele onafhankelijke episode met schaarse beloningen, traint MR-Search een beleid dat conditioneert op eerdere episodes en zijn zoekstrategie aanpast over episodes heen. MR-Search leert een zoekstrategie met zelfreflectie aan, waardoor zoekagenten hun in-context exploratie tijdens tests kunnen verbeteren. Concreet voert MR-Search cross-episode exploratie uit door expliciete zelfreflecties te genereren na elke episode en deze als aanvullende context te gebruiken om volgende pogingen te sturen, waardoor effectievere exploratie tijdens tests wordt bevorderd. Wij introduceren verder een multi-turn RL-algoritme dat een dicht relatief voordeel schat op turn-niveau, wat fijnmazige credit assignment per episode mogelijk maakt. Empirische resultaten over verschillende benchmarks tonen de voordelen van MR-Search aan ten opzichte van op RL gebaseerde baseline-methoden, met sterke generalisatie en relatieve verbeteringen van 9,2% tot 19,3% over acht benchmarks. Onze code en data zijn beschikbaar op https://github.com/tengxiao1/MR-Search.
English
This paper introduces MR-Search, an in-context meta reinforcement learning (RL) formulation for agentic search with self-reflection. Instead of optimizing a policy within a single independent episode with sparse rewards, MR-Search trains a policy that conditions on past episodes and adapts its search strategy across episodes. MR-Search learns to learn a search strategy with self-reflection, allowing search agents to improve in-context exploration at test-time. Specifically, MR-Search performs cross-episode exploration by generating explicit self-reflections after each episode and leveraging them as additional context to guide subsequent attempts, thereby promoting more effective exploration during test-time. We further introduce a multi-turn RL algorithm that estimates a dense relative advantage at the turn level, enabling fine-grained credit assignment on each episode. Empirical results across various benchmarks demonstrate the advantages of MR-Search over baselines based RL, showing strong generalization and relative improvements of 9.2% to 19.3% across eight benchmarks. Our code and data are available at https://github.com/tengxiao1/MR-Search.