Aprendendo com Falhas no Aprendizado por Reforço de Múltiplas Tentativas

Resumo

Os recentes avanços no aprendizado por reforço (RL) para modelos de linguagem de grande escala (LLMs), exemplificados pelo DeepSeek R1, demonstraram que até mesmo uma tarefa simples de perguntas e respostas pode melhorar substancialmente as capacidades de raciocínio de um LLM. Neste trabalho, estendemos essa abordagem modificando a tarefa para um cenário de múltiplas tentativas. Em vez de gerar uma única resposta por pergunta, o modelo recebe várias tentativas, com feedback fornecido após respostas incorretas. A tarefa de múltiplas tentativas incentiva o modelo a refinar suas tentativas anteriores e melhorar a eficiência da busca. Resultados experimentais mostram que até mesmo um LLM pequeno treinado em uma tarefa de múltiplas tentativas alcança uma precisão significativamente maior quando avaliado com mais tentativas, melhorando de 45,6% com 1 tentativa para 52,5% com 2 tentativas no benchmark de matemática. Em contraste, o mesmo LLM treinado em uma tarefa padrão de turno único exibe apenas uma melhoria marginal, aumentando de 42,3% para 43,2% quando recebe mais tentativas durante a avaliação. Os resultados indicam que, em comparação com a tarefa padrão de turno único, um LLM treinado em uma tarefa de múltiplas tentativas alcança um desempenho ligeiramente melhor em benchmarks de matemática, ao mesmo tempo em que aprende a refinar suas respostas de forma mais eficaz com base no feedback do usuário. O código completo está disponível em https://github.com/DualityRL/multi-attempt.

English

Recent advancements in reinforcement learning (RL) for large language models (LLMs), exemplified by DeepSeek R1, have shown that even a simple question-answering task can substantially improve an LLM's reasoning capabilities. In this work, we extend this approach by modifying the task into a multi-attempt setting. Instead of generating a single response per question, the model is given multiple attempts, with feedback provided after incorrect responses. The multi-attempt task encourages the model to refine its previous attempts and improve search efficiency. Experimental results show that even a small LLM trained on a multi-attempt task achieves significantly higher accuracy when evaluated with more attempts, improving from 45.6% with 1 attempt to 52.5% with 2 attempts on the math benchmark. In contrast, the same LLM trained on a standard single-turn task exhibits only a marginal improvement, increasing from 42.3% to 43.2% when given more attempts during evaluation. The results indicate that, compared to the standard single-turn task, an LLM trained on a multi-attempt task achieves slightly better performance on math benchmarks while also learning to refine its responses more effectively based on user feedback. Full code is available at https://github.com/DualityRL/multi-attempt

Aprendendo com Falhas no Aprendizado por Reforço de Múltiplas Tentativas

Learning from Failures in Multi-Attempt Reinforcement Learning

Resumo

Summary

Support

Support