Apprendimento dagli errori nel Reinforcement Learning con tentativi multipli

Abstract

I recenti progressi nel reinforcement learning (RL) per i grandi modelli linguistici (LLM), esemplificati da DeepSeek R1, hanno dimostrato che anche un semplice compito di risposta a domande può migliorare sostanzialmente le capacità di ragionamento di un LLM. In questo lavoro, estendiamo questo approccio modificando il compito in un contesto a più tentativi. Invece di generare una singola risposta per domanda, al modello vengono concessi più tentativi, con feedback fornito dopo risposte errate. Il compito a più tentativi incoraggia il modello a perfezionare i tentativi precedenti e a migliorare l'efficienza della ricerca. I risultati sperimentali mostrano che anche un piccolo LLM addestrato su un compito a più tentativi raggiunge un'accuratezza significativamente maggiore quando valutato con più tentativi, passando dal 45,6% con 1 tentativo al 52,5% con 2 tentativi sul benchmark matematico. Al contrario, lo stesso LLM addestrato su un compito standard a singolo turno mostra solo un miglioramento marginale, passando dal 42,3% al 43,2% quando gli vengono concessi più tentativi durante la valutazione. I risultati indicano che, rispetto al compito standard a singolo turno, un LLM addestrato su un compito a più tentativi ottiene prestazioni leggermente migliori sui benchmark matematici, imparando anche a perfezionare le proprie risposte in modo più efficace basandosi sul feedback dell'utente. Il codice completo è disponibile all'indirizzo https://github.com/DualityRL/multi-attempt.

English

Recent advancements in reinforcement learning (RL) for large language models (LLMs), exemplified by DeepSeek R1, have shown that even a simple question-answering task can substantially improve an LLM's reasoning capabilities. In this work, we extend this approach by modifying the task into a multi-attempt setting. Instead of generating a single response per question, the model is given multiple attempts, with feedback provided after incorrect responses. The multi-attempt task encourages the model to refine its previous attempts and improve search efficiency. Experimental results show that even a small LLM trained on a multi-attempt task achieves significantly higher accuracy when evaluated with more attempts, improving from 45.6% with 1 attempt to 52.5% with 2 attempts on the math benchmark. In contrast, the same LLM trained on a standard single-turn task exhibits only a marginal improvement, increasing from 42.3% to 43.2% when given more attempts during evaluation. The results indicate that, compared to the standard single-turn task, an LLM trained on a multi-attempt task achieves slightly better performance on math benchmarks while also learning to refine its responses more effectively based on user feedback. Full code is available at https://github.com/DualityRL/multi-attempt

Apprendimento dagli errori nel Reinforcement Learning con tentativi multipli

Learning from Failures in Multi-Attempt Reinforcement Learning

Abstract

Support