Leren van fouten in reinforcement learning met meerdere pogingen

Samenvatting

Recente vooruitgang in reinforcement learning (RL) voor grote taalmodellen (LLMs), geïllustreerd door DeepSeek R1, heeft aangetoond dat zelfs een eenvoudige vraag-antwoordtaak de redeneervaardigheden van een LLM aanzienlijk kan verbeteren. In dit werk breiden we deze aanpak uit door de taak aan te passen naar een multi-attempt setting. In plaats van één antwoord per vraag te genereren, krijgt het model meerdere pogingen, waarbij feedback wordt gegeven na incorrecte antwoorden. De multi-attempt taak moedigt het model aan om eerdere pogingen te verfijnen en de zoekefficiëntie te verbeteren. Experimentele resultaten laten zien dat zelfs een klein LLM dat is getraind op een multi-attempt taak een aanzienlijk hogere nauwkeurigheid bereikt wanneer het wordt geëvalueerd met meer pogingen, waarbij het verbetert van 45,6% met 1 poging naar 52,5% met 2 pogingen op de wiskundige benchmark. Daarentegen vertoont hetzelfde LLM dat is getraind op een standaard single-turn taak slechts een marginale verbetering, waarbij het stijgt van 42,3% naar 43,2% wanneer het meer pogingen krijgt tijdens de evaluatie. De resultaten geven aan dat, vergeleken met de standaard single-turn taak, een LLM dat is getraind op een multi-attempt taak iets betere prestaties behaalt op wiskundige benchmarks, terwijl het ook leert om zijn antwoorden effectiever te verfijnen op basis van gebruikersfeedback. Volledige code is beschikbaar op https://github.com/DualityRL/multi-attempt.

English

Recent advancements in reinforcement learning (RL) for large language models (LLMs), exemplified by DeepSeek R1, have shown that even a simple question-answering task can substantially improve an LLM's reasoning capabilities. In this work, we extend this approach by modifying the task into a multi-attempt setting. Instead of generating a single response per question, the model is given multiple attempts, with feedback provided after incorrect responses. The multi-attempt task encourages the model to refine its previous attempts and improve search efficiency. Experimental results show that even a small LLM trained on a multi-attempt task achieves significantly higher accuracy when evaluated with more attempts, improving from 45.6% with 1 attempt to 52.5% with 2 attempts on the math benchmark. In contrast, the same LLM trained on a standard single-turn task exhibits only a marginal improvement, increasing from 42.3% to 43.2% when given more attempts during evaluation. The results indicate that, compared to the standard single-turn task, an LLM trained on a multi-attempt task achieves slightly better performance on math benchmarks while also learning to refine its responses more effectively based on user feedback. Full code is available at https://github.com/DualityRL/multi-attempt

Leren van fouten in reinforcement learning met meerdere pogingen

Learning from Failures in Multi-Attempt Reinforcement Learning

Samenvatting

Summary

Support

Support