ChatPaper.aiChatPaper

Apprentissage à partir des échecs dans l'apprentissage par renforcement à tentatives multiples

Learning from Failures in Multi-Attempt Reinforcement Learning

March 4, 2025
Auteurs: Stephen Chung, Wenyu Du, Jie Fu
cs.AI

Résumé

Les récents progrès en apprentissage par renforcement (RL) pour les grands modèles de langage (LLM), illustrés par DeepSeek R1, ont montré qu'une simple tâche de question-réponse peut considérablement améliorer les capacités de raisonnement d'un LLM. Dans ce travail, nous étendons cette approche en transformant la tâche en un cadre multi-tentatives. Au lieu de générer une seule réponse par question, le modèle dispose de plusieurs tentatives, avec un retour d'information fourni après des réponses incorrectes. La tâche multi-tentatives encourage le modèle à affiner ses tentatives précédentes et à améliorer l'efficacité de la recherche. Les résultats expérimentaux montrent qu'un petit LLM entraîné sur une tâche multi-tentatives atteint une précision significativement plus élevée lorsqu'il est évalué avec plus de tentatives, passant de 45,6 % avec 1 tentative à 52,5 % avec 2 tentatives sur le benchmark mathématique. En revanche, le même LLM entraîné sur une tâche standard à tour unique ne montre qu'une amélioration marginale, passant de 42,3 % à 43,2 % lorsqu'il dispose de plus de tentatives lors de l'évaluation. Les résultats indiquent que, par rapport à la tâche standard à tour unique, un LLM entraîné sur une tâche multi-tentatives obtient des performances légèrement meilleures sur les benchmarks mathématiques tout en apprenant à affiner ses réponses plus efficacement en fonction des retours utilisateur. Le code complet est disponible à l'adresse suivante : https://github.com/DualityRL/multi-attempt.
English
Recent advancements in reinforcement learning (RL) for large language models (LLMs), exemplified by DeepSeek R1, have shown that even a simple question-answering task can substantially improve an LLM's reasoning capabilities. In this work, we extend this approach by modifying the task into a multi-attempt setting. Instead of generating a single response per question, the model is given multiple attempts, with feedback provided after incorrect responses. The multi-attempt task encourages the model to refine its previous attempts and improve search efficiency. Experimental results show that even a small LLM trained on a multi-attempt task achieves significantly higher accuracy when evaluated with more attempts, improving from 45.6% with 1 attempt to 52.5% with 2 attempts on the math benchmark. In contrast, the same LLM trained on a standard single-turn task exhibits only a marginal improvement, increasing from 42.3% to 43.2% when given more attempts during evaluation. The results indicate that, compared to the standard single-turn task, an LLM trained on a multi-attempt task achieves slightly better performance on math benchmarks while also learning to refine its responses more effectively based on user feedback. Full code is available at https://github.com/DualityRL/multi-attempt

Summary

AI-Generated Summary

PDF182March 10, 2025