ChatPaper.aiChatPaper

Un simple « Réessayez » peut susciter un raisonnement multi-tours dans les LLM.

A Simple "Try Again" Can Elicit Multi-Turn LLM Reasoning

July 18, 2025
papers.authors: Licheng Liu, Zihan Wang, Linjie Li, Chenwei Xu, Yiping Lu, Han Liu, Avirup Sil, Manling Li
cs.AI

papers.abstract

La résolution de problèmes en plusieurs tours est cruciale mais difficile pour les Grands Modèles de Raisonnement (LRMs) afin qu'ils puissent réfléchir à leur raisonnement et réviser à partir de retours d'information. Les méthodes existantes d'Apprentissage par Renforcement (RL) entraînent les grands modèles de raisonnement selon un paradigme à un seul tour avec des récompenses vérifiables. Cependant, nous observons que les modèles entraînés avec les paradigmes RL existants perdent souvent leur capacité à résoudre des problèmes sur plusieurs tours et peinent à réviser leurs réponses en fonction des retours contextuels, ce qui conduit à des réponses répétitives. Nous posons la question suivante : les LRMs peuvent-ils apprendre à réfléchir à leurs réponses dans un contexte à plusieurs tours ? Dans ce travail, nous constatons que l'entraînement des modèles avec du RL multi-tours en utilisant uniquement des retours unaires (par exemple, "Essayons encore") après des réponses incorrectes peut améliorer à la fois la performance à un seul tour et le raisonnement multi-tours. Nous introduisons le Retour Unaire comme Observation (UFO) pour l'apprentissage par renforcement, qui utilise des retours utilisateurs unaires minimaux mais courants lors de la résolution itérative de problèmes. Il peut être facilement appliqué aux configurations d'entraînement RL à un seul tour existantes. Les résultats expérimentaux montrent que l'entraînement RL avec UFO maintient la performance à un seul tour et améliore la précision du raisonnement multi-tours jusqu'à 14 %, permettant aux modèles de langage de mieux réagir aux retours dans la résolution de problèmes multi-tours. Pour minimiser davantage le nombre de tours nécessaires pour obtenir une réponse correcte tout en encourageant un raisonnement diversifié lorsque des erreurs se produisent, nous concevons des structures de récompense qui guident les modèles à produire des réponses réfléchies et délibérées à chaque tour. Code : https://github.com/lichengliu03/unary-feedback
English
Multi-turn problem solving is critical yet challenging for Large Reasoning Models (LRMs) to reflect on their reasoning and revise from feedback. Existing Reinforcement Learning (RL) methods train large reasoning models on a single-turn paradigm with verifiable rewards. However, we observe that models trained with existing RL paradigms often lose their ability to solve problems across multiple turns and struggle to revise answers based on contextual feedback, leading to repetitive responses. We ask: can LRMs learn to reflect their answers in a multi-turn context? In this work, we find that training models with multi-turn RL using only unary feedback (e.g., "Let's try again") after wrong answers can improve both single-turn performance and multi-turn reasoning. We introduce Unary Feedback as Observation (UFO) for reinforcement learning, which uses minimal yet common unary user feedback during iterative problem solving. It can be easily applied to existing single-turn RL training setups. Experimental results show that RL training with UFO keeps single-turn performance and improves multi-turn reasoning accuracy by up to 14%, enabling language models to better react to feedback in multi-turn problem solving. To further minimize the number of turns needed for a correct answer while encouraging diverse reasoning when mistakes occur, we design reward structures that guide models to produce careful and deliberate answers in each turn. Code: https://github.com/lichengliu03/unary-feedback
PDF101July 22, 2025