Méta-Apprentissage par Renforcement avec Auto-Réflexion pour la Recherche Agentique

Résumé

Cet article présente MR-Search, une formulation méta d'apprentissage par renforcement (RL) contextuelle pour la recherche agentique avec auto-réflexion. Au lieu d'optimiser une politique dans un épisode unique indépendant avec des récompenses éparses, MR-Search entraîne une politique qui se conditionne sur les épisodes passés et adapte sa stratégie de recherche d'un épisode à l'autre. MR-Search apprend à apprendre une stratégie de recherche avec auto-réflexion, permettant aux agents de recherche d'améliorer l'exploration contextuelle lors des tests. Plus précisément, MR-Search effectue une exploration inter-épisodes en générant des auto-réflexions explicites après chaque épisode et en les exploitant comme contexte supplémentaire pour guider les tentatives suivantes, favorisant ainsi une exploration plus efficace pendant les tests. Nous introduisons en outre un algorithme de RL multi-tours qui estime un avantage relatif dense au niveau du tour, permettant un attribution de crédit fine sur chaque épisode. Les résultats empiriques sur diverses benchmarks démontrent les avantages de MR-Search par rapport aux méthodes de RL de référence, affichant une forte généralisation et des améliorations relatives de 9,2 % à 19,3 % sur huit benchmarks. Notre code et nos données sont disponibles à l'adresse https://github.com/tengxiao1/MR-Search.

English

This paper introduces MR-Search, an in-context meta reinforcement learning (RL) formulation for agentic search with self-reflection. Instead of optimizing a policy within a single independent episode with sparse rewards, MR-Search trains a policy that conditions on past episodes and adapts its search strategy across episodes. MR-Search learns to learn a search strategy with self-reflection, allowing search agents to improve in-context exploration at test-time. Specifically, MR-Search performs cross-episode exploration by generating explicit self-reflections after each episode and leveraging them as additional context to guide subsequent attempts, thereby promoting more effective exploration during test-time. We further introduce a multi-turn RL algorithm that estimates a dense relative advantage at the turn level, enabling fine-grained credit assignment on each episode. Empirical results across various benchmarks demonstrate the advantages of MR-Search over baselines based RL, showing strong generalization and relative improvements of 9.2% to 19.3% across eight benchmarks. Our code and data are available at https://github.com/tengxiao1/MR-Search.

Méta-Apprentissage par Renforcement avec Auto-Réflexion pour la Recherche Agentique

Meta-Reinforcement Learning with Self-Reflection for Agentic Search

Résumé

Support