Мета-обучение с подкреплением с саморефлексией для агентного поиска
Meta-Reinforcement Learning with Self-Reflection for Agentic Search
March 11, 2026
Авторы: Teng Xiao, Yige Yuan, Hamish Ivison, Huaisheng Zhu, Faeze Brahman, Nathan Lambert, Pradeep Dasigi, Noah A. Smith, Hannaneh Hajishirzi
cs.AI
Аннотация
В данной работе представлена MR-Search — методология контекстного мета-обучения с подкреплением (RL) для агентного поиска с саморефлексией. В отличие от оптимизации политики в рамках единичного независимого эпизода с разреженными вознаграждениями, MR-Search обучает политику, которая учитывает предыдущие эпизоды и адаптирует стратегию поиска между эпизодами. MR-Search обучается стратегии поиска с саморефлексией, позволяя поисковым агентам улучшать контекстное исследование во время тестирования. В частности, MR-Search осуществляет межэпизодное исследование, генерируя явные саморефлексии после каждого эпизода и используя их в качестве дополнительного контекста для руководства последующими попытками, что способствует более эффективному исследованию в тестовом режиме. Мы также представляем многошаговый RL-алгоритм, который оценивает плотное относительное преимущество на уровне шага, обеспечивая точное распределение заслуг для каждого эпизода. Экспериментальные результаты на различных бенчмарках демонстрируют преимущества MR-Search по сравнению с базовыми RL-подходами, показывая высокую обобщающую способность и относительное улучшение от 9,2% до 19,3% на восьми бенчмарках. Наш код и данные доступны по адресу https://github.com/tengxiao1/MR-Search.
English
This paper introduces MR-Search, an in-context meta reinforcement learning (RL) formulation for agentic search with self-reflection. Instead of optimizing a policy within a single independent episode with sparse rewards, MR-Search trains a policy that conditions on past episodes and adapts its search strategy across episodes. MR-Search learns to learn a search strategy with self-reflection, allowing search agents to improve in-context exploration at test-time. Specifically, MR-Search performs cross-episode exploration by generating explicit self-reflections after each episode and leveraging them as additional context to guide subsequent attempts, thereby promoting more effective exploration during test-time. We further introduce a multi-turn RL algorithm that estimates a dense relative advantage at the turn level, enabling fine-grained credit assignment on each episode. Empirical results across various benchmarks demonstrate the advantages of MR-Search over baselines based RL, showing strong generalization and relative improvements of 9.2% to 19.3% across eight benchmarks. Our code and data are available at https://github.com/tengxiao1/MR-Search.