Lernen aus Fehlern im Multi-Versuch-Reinforcement-Learning
Learning from Failures in Multi-Attempt Reinforcement Learning
March 4, 2025
Autoren: Stephen Chung, Wenyu Du, Jie Fu
cs.AI
Zusammenfassung
Jüngste Fortschritte im Bereich des Reinforcement Learning (RL) für große Sprachmodelle (LLMs), wie sie beispielsweise durch DeepSeek R1 veranschaulicht werden, haben gezeigt, dass selbst eine einfache Frage-Antwort-Aufgabe die Fähigkeiten eines LLMs zur logischen Schlussfolgerung erheblich verbessern kann. In dieser Arbeit erweitern wir diesen Ansatz, indem wir die Aufgabe in ein Mehrfachversuchs-Setting umwandeln. Anstatt eine einzige Antwort pro Frage zu generieren, erhält das Modell mehrere Versuche, wobei nach falschen Antworten Feedback gegeben wird. Die Mehrfachversuchs-Aufgabe ermutigt das Modell, seine vorherigen Versuche zu verfeinern und die Such effizienz zu verbessern. Experimentelle Ergebnisse zeigen, dass selbst ein kleines LLM, das auf eine Mehrfachversuchs-Aufgabe trainiert wurde, bei der Auswertung mit mehr Versuchen eine signifikant höhere Genauigkeit erreicht, wobei die Genauigkeit auf dem Mathematik-Benchmark von 45,6 % bei einem Versuch auf 52,5 % bei zwei Versuchen steigt. Im Gegensatz dazu zeigt dasselbe LLM, das auf eine Standard-Einzelversuchs-Aufgabe trainiert wurde, nur eine marginale Verbesserung, die von 42,3 % auf 43,2 % steigt, wenn während der Auswertung mehr Versuche gegeben werden. Die Ergebnisse deuten darauf hin, dass ein LLM, das auf eine Mehrfachversuchs-Aufgabe trainiert wurde, im Vergleich zur Standard-Einzelversuchs-Aufgabe eine leicht bessere Leistung auf Mathematik-Benchmarks erzielt und gleichzeitig lernt, seine Antworten effektiver auf der Grundlage von Benutzerfeedback zu verfeinern. Der vollständige Code ist verfügbar unter https://github.com/DualityRL/multi-attempt.
English
Recent advancements in reinforcement learning (RL) for large language models
(LLMs), exemplified by DeepSeek R1, have shown that even a simple
question-answering task can substantially improve an LLM's reasoning
capabilities. In this work, we extend this approach by modifying the task into
a multi-attempt setting. Instead of generating a single response per question,
the model is given multiple attempts, with feedback provided after incorrect
responses. The multi-attempt task encourages the model to refine its previous
attempts and improve search efficiency. Experimental results show that even a
small LLM trained on a multi-attempt task achieves significantly higher
accuracy when evaluated with more attempts, improving from 45.6% with 1 attempt
to 52.5% with 2 attempts on the math benchmark. In contrast, the same LLM
trained on a standard single-turn task exhibits only a marginal improvement,
increasing from 42.3% to 43.2% when given more attempts during evaluation. The
results indicate that, compared to the standard single-turn task, an LLM
trained on a multi-attempt task achieves slightly better performance on math
benchmarks while also learning to refine its responses more effectively based
on user feedback. Full code is available at
https://github.com/DualityRL/multi-attemptSummary
AI-Generated Summary