Apprendimento dagli errori nel Reinforcement Learning con tentativi multipli
Learning from Failures in Multi-Attempt Reinforcement Learning
March 4, 2025
Autori: Stephen Chung, Wenyu Du, Jie Fu
cs.AI
Abstract
I recenti progressi nel reinforcement learning (RL) per i grandi modelli linguistici (LLM), esemplificati da DeepSeek R1, hanno dimostrato che anche un semplice compito di risposta a domande può migliorare sostanzialmente le capacità di ragionamento di un LLM. In questo lavoro, estendiamo questo approccio modificando il compito in un contesto a più tentativi. Invece di generare una singola risposta per domanda, al modello vengono concessi più tentativi, con feedback fornito dopo risposte errate. Il compito a più tentativi incoraggia il modello a perfezionare i tentativi precedenti e a migliorare l'efficienza della ricerca. I risultati sperimentali mostrano che anche un piccolo LLM addestrato su un compito a più tentativi raggiunge un'accuratezza significativamente maggiore quando valutato con più tentativi, passando dal 45,6% con 1 tentativo al 52,5% con 2 tentativi sul benchmark matematico. Al contrario, lo stesso LLM addestrato su un compito standard a singolo turno mostra solo un miglioramento marginale, passando dal 42,3% al 43,2% quando gli vengono concessi più tentativi durante la valutazione. I risultati indicano che, rispetto al compito standard a singolo turno, un LLM addestrato su un compito a più tentativi ottiene prestazioni leggermente migliori sui benchmark matematici, imparando anche a perfezionare le proprie risposte in modo più efficace basandosi sul feedback dell'utente. Il codice completo è disponibile all'indirizzo https://github.com/DualityRL/multi-attempt.
English
Recent advancements in reinforcement learning (RL) for large language models
(LLMs), exemplified by DeepSeek R1, have shown that even a simple
question-answering task can substantially improve an LLM's reasoning
capabilities. In this work, we extend this approach by modifying the task into
a multi-attempt setting. Instead of generating a single response per question,
the model is given multiple attempts, with feedback provided after incorrect
responses. The multi-attempt task encourages the model to refine its previous
attempts and improve search efficiency. Experimental results show that even a
small LLM trained on a multi-attempt task achieves significantly higher
accuracy when evaluated with more attempts, improving from 45.6% with 1 attempt
to 52.5% with 2 attempts on the math benchmark. In contrast, the same LLM
trained on a standard single-turn task exhibits only a marginal improvement,
increasing from 42.3% to 43.2% when given more attempts during evaluation. The
results indicate that, compared to the standard single-turn task, an LLM
trained on a multi-attempt task achieves slightly better performance on math
benchmarks while also learning to refine its responses more effectively based
on user feedback. Full code is available at
https://github.com/DualityRL/multi-attemptSummary
AI-Generated Summary