ChatPaper.aiChatPaper

Lernen aus Fehlern im Multi-Versuch-Reinforcement-Learning

Learning from Failures in Multi-Attempt Reinforcement Learning

March 4, 2025
Autoren: Stephen Chung, Wenyu Du, Jie Fu
cs.AI

Zusammenfassung

Jüngste Fortschritte im Bereich des Reinforcement Learning (RL) für große Sprachmodelle (LLMs), wie sie beispielsweise durch DeepSeek R1 veranschaulicht werden, haben gezeigt, dass selbst eine einfache Frage-Antwort-Aufgabe die Fähigkeiten eines LLMs zur logischen Schlussfolgerung erheblich verbessern kann. In dieser Arbeit erweitern wir diesen Ansatz, indem wir die Aufgabe in ein Mehrfachversuchs-Setting umwandeln. Anstatt eine einzige Antwort pro Frage zu generieren, erhält das Modell mehrere Versuche, wobei nach falschen Antworten Feedback gegeben wird. Die Mehrfachversuchs-Aufgabe ermutigt das Modell, seine vorherigen Versuche zu verfeinern und die Such effizienz zu verbessern. Experimentelle Ergebnisse zeigen, dass selbst ein kleines LLM, das auf eine Mehrfachversuchs-Aufgabe trainiert wurde, bei der Auswertung mit mehr Versuchen eine signifikant höhere Genauigkeit erreicht, wobei die Genauigkeit auf dem Mathematik-Benchmark von 45,6 % bei einem Versuch auf 52,5 % bei zwei Versuchen steigt. Im Gegensatz dazu zeigt dasselbe LLM, das auf eine Standard-Einzelversuchs-Aufgabe trainiert wurde, nur eine marginale Verbesserung, die von 42,3 % auf 43,2 % steigt, wenn während der Auswertung mehr Versuche gegeben werden. Die Ergebnisse deuten darauf hin, dass ein LLM, das auf eine Mehrfachversuchs-Aufgabe trainiert wurde, im Vergleich zur Standard-Einzelversuchs-Aufgabe eine leicht bessere Leistung auf Mathematik-Benchmarks erzielt und gleichzeitig lernt, seine Antworten effektiver auf der Grundlage von Benutzerfeedback zu verfeinern. Der vollständige Code ist verfügbar unter https://github.com/DualityRL/multi-attempt.
English
Recent advancements in reinforcement learning (RL) for large language models (LLMs), exemplified by DeepSeek R1, have shown that even a simple question-answering task can substantially improve an LLM's reasoning capabilities. In this work, we extend this approach by modifying the task into a multi-attempt setting. Instead of generating a single response per question, the model is given multiple attempts, with feedback provided after incorrect responses. The multi-attempt task encourages the model to refine its previous attempts and improve search efficiency. Experimental results show that even a small LLM trained on a multi-attempt task achieves significantly higher accuracy when evaluated with more attempts, improving from 45.6% with 1 attempt to 52.5% with 2 attempts on the math benchmark. In contrast, the same LLM trained on a standard single-turn task exhibits only a marginal improvement, increasing from 42.3% to 43.2% when given more attempts during evaluation. The results indicate that, compared to the standard single-turn task, an LLM trained on a multi-attempt task achieves slightly better performance on math benchmarks while also learning to refine its responses more effectively based on user feedback. Full code is available at https://github.com/DualityRL/multi-attempt

Summary

AI-Generated Summary

PDF182March 10, 2025