Apprentissage à partir des échecs dans l'apprentissage par renforcement à tentatives multiples

papers.abstract

Les récents progrès en apprentissage par renforcement (RL) pour les grands modèles de langage (LLM), illustrés par DeepSeek R1, ont montré qu'une simple tâche de question-réponse peut considérablement améliorer les capacités de raisonnement d'un LLM. Dans ce travail, nous étendons cette approche en transformant la tâche en un cadre multi-tentatives. Au lieu de générer une seule réponse par question, le modèle dispose de plusieurs tentatives, avec un retour d'information fourni après des réponses incorrectes. La tâche multi-tentatives encourage le modèle à affiner ses tentatives précédentes et à améliorer l'efficacité de la recherche. Les résultats expérimentaux montrent qu'un petit LLM entraîné sur une tâche multi-tentatives atteint une précision significativement plus élevée lorsqu'il est évalué avec plus de tentatives, passant de 45,6 % avec 1 tentative à 52,5 % avec 2 tentatives sur le benchmark mathématique. En revanche, le même LLM entraîné sur une tâche standard à tour unique ne montre qu'une amélioration marginale, passant de 42,3 % à 43,2 % lorsqu'il dispose de plus de tentatives lors de l'évaluation. Les résultats indiquent que, par rapport à la tâche standard à tour unique, un LLM entraîné sur une tâche multi-tentatives obtient des performances légèrement meilleures sur les benchmarks mathématiques tout en apprenant à affiner ses réponses plus efficacement en fonction des retours utilisateur. Le code complet est disponible à l'adresse suivante : https://github.com/DualityRL/multi-attempt.

English

Recent advancements in reinforcement learning (RL) for large language models (LLMs), exemplified by DeepSeek R1, have shown that even a simple question-answering task can substantially improve an LLM's reasoning capabilities. In this work, we extend this approach by modifying the task into a multi-attempt setting. Instead of generating a single response per question, the model is given multiple attempts, with feedback provided after incorrect responses. The multi-attempt task encourages the model to refine its previous attempts and improve search efficiency. Experimental results show that even a small LLM trained on a multi-attempt task achieves significantly higher accuracy when evaluated with more attempts, improving from 45.6% with 1 attempt to 52.5% with 2 attempts on the math benchmark. In contrast, the same LLM trained on a standard single-turn task exhibits only a marginal improvement, increasing from 42.3% to 43.2% when given more attempts during evaluation. The results indicate that, compared to the standard single-turn task, an LLM trained on a multi-attempt task achieves slightly better performance on math benchmarks while also learning to refine its responses more effectively based on user feedback. Full code is available at https://github.com/DualityRL/multi-attempt

Apprentissage à partir des échecs dans l'apprentissage par renforcement à tentatives multiples

Learning from Failures in Multi-Attempt Reinforcement Learning

papers.abstract

Support