ChatPaper.aiChatPaper

Aprendiendo de los fracasos en el aprendizaje por refuerzo con múltiples intentos

Learning from Failures in Multi-Attempt Reinforcement Learning

March 4, 2025
Autores: Stephen Chung, Wenyu Du, Jie Fu
cs.AI

Resumen

Los avances recientes en el aprendizaje por refuerzo (RL) para modelos de lenguaje de gran escala (LLMs), ejemplificados por DeepSeek R1, han demostrado que incluso una tarea simple de preguntas y respuestas puede mejorar sustancialmente las capacidades de razonamiento de un LLM. En este trabajo, extendemos este enfoque modificando la tarea a un entorno de múltiples intentos. En lugar de generar una única respuesta por pregunta, el modelo recibe múltiples intentos, con retroalimentación proporcionada después de respuestas incorrectas. La tarea de múltiples intentos fomenta que el modelo refine sus intentos previos y mejore la eficiencia en la búsqueda. Los resultados experimentales muestran que incluso un LLM pequeño entrenado en una tarea de múltiples intentos logra una precisión significativamente mayor cuando se evalúa con más intentos, mejorando del 45.6% con 1 intento al 52.5% con 2 intentos en el benchmark de matemáticas. En contraste, el mismo LLM entrenado en una tarea estándar de un solo turno exhibe solo una mejora marginal, aumentando del 42.3% al 43.2% cuando se le dan más intentos durante la evaluación. Los resultados indican que, en comparación con la tarea estándar de un solo turno, un LLM entrenado en una tarea de múltiples intentos logra un rendimiento ligeramente mejor en benchmarks de matemáticas, mientras también aprende a refinar sus respuestas de manera más efectiva basándose en la retroalimentación del usuario. El código completo está disponible en https://github.com/DualityRL/multi-attempt.
English
Recent advancements in reinforcement learning (RL) for large language models (LLMs), exemplified by DeepSeek R1, have shown that even a simple question-answering task can substantially improve an LLM's reasoning capabilities. In this work, we extend this approach by modifying the task into a multi-attempt setting. Instead of generating a single response per question, the model is given multiple attempts, with feedback provided after incorrect responses. The multi-attempt task encourages the model to refine its previous attempts and improve search efficiency. Experimental results show that even a small LLM trained on a multi-attempt task achieves significantly higher accuracy when evaluated with more attempts, improving from 45.6% with 1 attempt to 52.5% with 2 attempts on the math benchmark. In contrast, the same LLM trained on a standard single-turn task exhibits only a marginal improvement, increasing from 42.3% to 43.2% when given more attempts during evaluation. The results indicate that, compared to the standard single-turn task, an LLM trained on a multi-attempt task achieves slightly better performance on math benchmarks while also learning to refine its responses more effectively based on user feedback. Full code is available at https://github.com/DualityRL/multi-attempt

Summary

AI-Generated Summary

PDF182March 10, 2025