ChatPaper.aiChatPaper

Ein einfaches „Versuchen Sie es erneut“ kann mehrschrittiges LLM-Denken auslösen.

A Simple "Try Again" Can Elicit Multi-Turn LLM Reasoning

July 18, 2025
papers.authors: Licheng Liu, Zihan Wang, Linjie Li, Chenwei Xu, Yiping Lu, Han Liu, Avirup Sil, Manling Li
cs.AI

papers.abstract

Mehrschrittiges Problemlösen ist entscheidend, aber auch herausfordernd für Large Reasoning Models (LRMs), um ihre Argumentation zu reflektieren und auf Feedback zu reagieren. Bisherige Reinforcement Learning (RL)-Methoden trainieren große Reasoning-Modelle in einem Einzelschritt-Paradigma mit überprüfbaren Belohnungen. Wir beobachten jedoch, dass Modelle, die mit bestehenden RL-Paradigmen trainiert werden, oft ihre Fähigkeit verlieren, Probleme über mehrere Schritte hinweg zu lösen, und Schwierigkeiten haben, Antworten basierend auf kontextuellem Feedback zu überarbeiten, was zu repetitiven Antworten führt. Wir stellen die Frage: Können LRMs lernen, ihre Antworten in einem mehrschrittigen Kontext zu reflektieren? In dieser Arbeit zeigen wir, dass das Training von Modellen mit mehrschrittigem RL unter Verwendung von unärem Feedback (z. B. „Versuchen wir es noch einmal“) nach falschen Antworten sowohl die Einzelschritt-Leistung als auch das mehrschrittige Reasoning verbessern kann. Wir führen Unary Feedback as Observation (UFO) für Reinforcement Learning ein, das minimales, aber gängiges unäres Benutzerfeedback während des iterativen Problemlösens nutzt. Es kann problemlos in bestehende Einzelschritt-RL-Trainingssetups integriert werden. Experimentelle Ergebnisse zeigen, dass RL-Training mit UFO die Einzelschritt-Leistung beibehält und die Genauigkeit des mehrschrittigen Reasonings um bis zu 14 % verbessert, wodurch Sprachmodelle besser auf Feedback im mehrschrittigen Problemlösen reagieren können. Um die Anzahl der benötigten Schritte für eine korrekte Antwort weiter zu minimieren und gleichzeitig vielfältiges Reasoning bei Fehlern zu fördern, entwerfen wir Belohnungsstrukturen, die Modelle dazu anleiten, in jedem Schritt sorgfältige und durchdachte Antworten zu liefern. Code: https://github.com/lichengliu03/unary-feedback
English
Multi-turn problem solving is critical yet challenging for Large Reasoning Models (LRMs) to reflect on their reasoning and revise from feedback. Existing Reinforcement Learning (RL) methods train large reasoning models on a single-turn paradigm with verifiable rewards. However, we observe that models trained with existing RL paradigms often lose their ability to solve problems across multiple turns and struggle to revise answers based on contextual feedback, leading to repetitive responses. We ask: can LRMs learn to reflect their answers in a multi-turn context? In this work, we find that training models with multi-turn RL using only unary feedback (e.g., "Let's try again") after wrong answers can improve both single-turn performance and multi-turn reasoning. We introduce Unary Feedback as Observation (UFO) for reinforcement learning, which uses minimal yet common unary user feedback during iterative problem solving. It can be easily applied to existing single-turn RL training setups. Experimental results show that RL training with UFO keeps single-turn performance and improves multi-turn reasoning accuracy by up to 14%, enabling language models to better react to feedback in multi-turn problem solving. To further minimize the number of turns needed for a correct answer while encouraging diverse reasoning when mistakes occur, we design reward structures that guide models to produce careful and deliberate answers in each turn. Code: https://github.com/lichengliu03/unary-feedback
PDF101July 22, 2025