Aprendendo com Falhas no Aprendizado por Reforço de Múltiplas Tentativas
Learning from Failures in Multi-Attempt Reinforcement Learning
March 4, 2025
Autores: Stephen Chung, Wenyu Du, Jie Fu
cs.AI
Resumo
Os recentes avanços no aprendizado por reforço (RL) para modelos de linguagem de grande escala (LLMs), exemplificados pelo DeepSeek R1, demonstraram que até mesmo uma tarefa simples de perguntas e respostas pode melhorar substancialmente as capacidades de raciocínio de um LLM. Neste trabalho, estendemos essa abordagem modificando a tarefa para um cenário de múltiplas tentativas. Em vez de gerar uma única resposta por pergunta, o modelo recebe várias tentativas, com feedback fornecido após respostas incorretas. A tarefa de múltiplas tentativas incentiva o modelo a refinar suas tentativas anteriores e melhorar a eficiência da busca. Resultados experimentais mostram que até mesmo um LLM pequeno treinado em uma tarefa de múltiplas tentativas alcança uma precisão significativamente maior quando avaliado com mais tentativas, melhorando de 45,6% com 1 tentativa para 52,5% com 2 tentativas no benchmark de matemática. Em contraste, o mesmo LLM treinado em uma tarefa padrão de turno único exibe apenas uma melhoria marginal, aumentando de 42,3% para 43,2% quando recebe mais tentativas durante a avaliação. Os resultados indicam que, em comparação com a tarefa padrão de turno único, um LLM treinado em uma tarefa de múltiplas tentativas alcança um desempenho ligeiramente melhor em benchmarks de matemática, ao mesmo tempo em que aprende a refinar suas respostas de forma mais eficaz com base no feedback do usuário. O código completo está disponível em https://github.com/DualityRL/multi-attempt.
English
Recent advancements in reinforcement learning (RL) for large language models
(LLMs), exemplified by DeepSeek R1, have shown that even a simple
question-answering task can substantially improve an LLM's reasoning
capabilities. In this work, we extend this approach by modifying the task into
a multi-attempt setting. Instead of generating a single response per question,
the model is given multiple attempts, with feedback provided after incorrect
responses. The multi-attempt task encourages the model to refine its previous
attempts and improve search efficiency. Experimental results show that even a
small LLM trained on a multi-attempt task achieves significantly higher
accuracy when evaluated with more attempts, improving from 45.6% with 1 attempt
to 52.5% with 2 attempts on the math benchmark. In contrast, the same LLM
trained on a standard single-turn task exhibits only a marginal improvement,
increasing from 42.3% to 43.2% when given more attempts during evaluation. The
results indicate that, compared to the standard single-turn task, an LLM
trained on a multi-attempt task achieves slightly better performance on math
benchmarks while also learning to refine its responses more effectively based
on user feedback. Full code is available at
https://github.com/DualityRL/multi-attemptSummary
AI-Generated Summary