Lernen aus Fehlern im Multi-Versuch-Reinforcement-Learning

papers.abstract

Jüngste Fortschritte im Bereich des Reinforcement Learning (RL) für große Sprachmodelle (LLMs), wie sie beispielsweise durch DeepSeek R1 veranschaulicht werden, haben gezeigt, dass selbst eine einfache Frage-Antwort-Aufgabe die Fähigkeiten eines LLMs zur logischen Schlussfolgerung erheblich verbessern kann. In dieser Arbeit erweitern wir diesen Ansatz, indem wir die Aufgabe in ein Mehrfachversuchs-Setting umwandeln. Anstatt eine einzige Antwort pro Frage zu generieren, erhält das Modell mehrere Versuche, wobei nach falschen Antworten Feedback gegeben wird. Die Mehrfachversuchs-Aufgabe ermutigt das Modell, seine vorherigen Versuche zu verfeinern und die Such effizienz zu verbessern. Experimentelle Ergebnisse zeigen, dass selbst ein kleines LLM, das auf eine Mehrfachversuchs-Aufgabe trainiert wurde, bei der Auswertung mit mehr Versuchen eine signifikant höhere Genauigkeit erreicht, wobei die Genauigkeit auf dem Mathematik-Benchmark von 45,6 % bei einem Versuch auf 52,5 % bei zwei Versuchen steigt. Im Gegensatz dazu zeigt dasselbe LLM, das auf eine Standard-Einzelversuchs-Aufgabe trainiert wurde, nur eine marginale Verbesserung, die von 42,3 % auf 43,2 % steigt, wenn während der Auswertung mehr Versuche gegeben werden. Die Ergebnisse deuten darauf hin, dass ein LLM, das auf eine Mehrfachversuchs-Aufgabe trainiert wurde, im Vergleich zur Standard-Einzelversuchs-Aufgabe eine leicht bessere Leistung auf Mathematik-Benchmarks erzielt und gleichzeitig lernt, seine Antworten effektiver auf der Grundlage von Benutzerfeedback zu verfeinern. Der vollständige Code ist verfügbar unter https://github.com/DualityRL/multi-attempt.

English

Recent advancements in reinforcement learning (RL) for large language models (LLMs), exemplified by DeepSeek R1, have shown that even a simple question-answering task can substantially improve an LLM's reasoning capabilities. In this work, we extend this approach by modifying the task into a multi-attempt setting. Instead of generating a single response per question, the model is given multiple attempts, with feedback provided after incorrect responses. The multi-attempt task encourages the model to refine its previous attempts and improve search efficiency. Experimental results show that even a small LLM trained on a multi-attempt task achieves significantly higher accuracy when evaluated with more attempts, improving from 45.6% with 1 attempt to 52.5% with 2 attempts on the math benchmark. In contrast, the same LLM trained on a standard single-turn task exhibits only a marginal improvement, increasing from 42.3% to 43.2% when given more attempts during evaluation. The results indicate that, compared to the standard single-turn task, an LLM trained on a multi-attempt task achieves slightly better performance on math benchmarks while also learning to refine its responses more effectively based on user feedback. Full code is available at https://github.com/DualityRL/multi-attempt

Lernen aus Fehlern im Multi-Versuch-Reinforcement-Learning

Learning from Failures in Multi-Attempt Reinforcement Learning

papers.abstract

Support