Apprentissage par Renforcement Expérientiel
Experiential Reinforcement Learning
February 15, 2026
papers.authors: Taiwei Shi, Sihao Chen, Bowen Jiang, Linxin Song, Longqi Yang, Jieyu Zhao
cs.AI
papers.abstract
L'apprentissage par renforcement est devenu l'approche centrale permettant aux modèles de langage (ML) d'apprendre à partir de récompenses ou de retours d'information de l'environnement. En pratique, le retour environnemental est généralement rare et retardé. L'apprentissage à partir de tels signaux est difficile, car les ML doivent inférer implicitement comment les échecs observés doivent se traduire par des changements de comportement pour les itérations futures. Nous introduisons l'Apprentissage par Renforcement Expérientiel (ARE), un paradigme de formation qui intègre une boucle explicite expérience-réflexion-consolidation dans le processus d'apprentissage par renforcement. Face à une tâche, le modèle génère une tentative initiale, reçoit un retour environnemental, et produit une réflexion qui guide une seconde tentative raffinée, dont le succès est renforcé et internalisé dans la politique de base. Ce processus convertit le retour d'information en une révision comportementale structurée, améliorant l'exploration et stabilisant l'optimisation tout en préservant les gains lors du déploiement sans coût d'inférence supplémentaire. Sur des environnements de contrôle à récompense rare et des benchmarks de raisonnement agentique, l'ARE améliore constamment l'efficacité d'apprentissage et les performances finales par rapport à des bases solides d'apprentissage par renforcement, atteignant des gains allant jusqu'à +81% dans des environnements complexes multi-étapes et jusqu'à +11% dans des tâches de raisonnement utilisant des outils. Ces résultats suggèrent que l'intégration d'une autoréflexion explicite dans l'entraînement des politiques offre un mécanisme pratique pour transformer le retour d'information en une amélioration comportementale durable.
English
Reinforcement learning has become the central approach for language models (LMs) to learn from environmental reward or feedback. In practice, the environmental feedback is usually sparse and delayed. Learning from such signals is challenging, as LMs must implicitly infer how observed failures should translate into behavioral changes for future iterations. We introduce Experiential Reinforcement Learning (ERL), a training paradigm that embeds an explicit experience-reflection-consolidation loop into the reinforcement learning process. Given a task, the model generates an initial attempt, receives environmental feedback, and produces a reflection that guides a refined second attempt, whose success is reinforced and internalized into the base policy. This process converts feedback into structured behavioral revision, improving exploration and stabilizing optimization while preserving gains at deployment without additional inference cost. Across sparse-reward control environments and agentic reasoning benchmarks, ERL consistently improves learning efficiency and final performance over strong reinforcement learning baselines, achieving gains of up to +81% in complex multi-step environments and up to +11% in tool-using reasoning tasks. These results suggest that integrating explicit self-reflection into policy training provides a practical mechanism for transforming feedback into durable behavioral improvement.