Meta-Reinforcement-Learning mit Selbstreflexion für agentische Suche

Zusammenfassung

Dieses Paper stellt MR-Search vor, eine In-Context-Meta-Reinforcement-Learning(RL)-Formulierung für agentenbasiertes Suchen mit Selbstreflexion. Anstatt eine Policy innerhalb einer einzelnen, unabhängigen Episode mit spärlichen Belohnungen zu optimieren, trainiert MR-Search eine Policy, die vergangene Episoden berücksichtigt und ihre Suchstrategie episodenübergreifend anpasst. MR-Search lernt, eine Suchstrategie mit Selbstreflexion zu erlernen, was es Suchagenten ermöglicht, ihre In-Context-Exploration zur Testzeit zu verbessern. Konkret führt MR-Search eine episodenübergreifende Exploration durch, indem es nach jeder Episode explizite Selbstreflexionen generiert und diese als zusätzlichen Kontext nutzt, um nachfolgende Versuche zu steuern, wodurch eine effektivere Exploration während der Testzeit gefördert wird. Wir führen weiterhin einen Multi-Turn-RL-Algorithmus ein, der einen dichten relativen Vorteil auf der Ebene einzelner Züge schätzt und so eine feingranulare Kreditzuordnung für jede Episode ermöglicht. Empirische Ergebnisse über verschiedene Benchmarks hinweg demonstrieren die Vorteile von MR-Search gegenüber RL-basierten Baseline-Methoden, mit starker Generalisierungsfähigkeit und relativen Verbesserungen von 9,2 % bis 19,3 % über acht Benchmarks hinweg. Unser Code und unsere Daten sind verfügbar unter https://github.com/tengxiao1/MR-Search.

English

This paper introduces MR-Search, an in-context meta reinforcement learning (RL) formulation for agentic search with self-reflection. Instead of optimizing a policy within a single independent episode with sparse rewards, MR-Search trains a policy that conditions on past episodes and adapts its search strategy across episodes. MR-Search learns to learn a search strategy with self-reflection, allowing search agents to improve in-context exploration at test-time. Specifically, MR-Search performs cross-episode exploration by generating explicit self-reflections after each episode and leveraging them as additional context to guide subsequent attempts, thereby promoting more effective exploration during test-time. We further introduce a multi-turn RL algorithm that estimates a dense relative advantage at the turn level, enabling fine-grained credit assignment on each episode. Empirical results across various benchmarks demonstrate the advantages of MR-Search over baselines based RL, showing strong generalization and relative improvements of 9.2% to 19.3% across eight benchmarks. Our code and data are available at https://github.com/tengxiao1/MR-Search.

Meta-Reinforcement-Learning mit Selbstreflexion für agentische Suche

Meta-Reinforcement Learning with Self-Reflection for Agentic Search

Zusammenfassung

Support