Un semplice "Riprova" può stimolare il ragionamento multi-turn nei modelli linguistici di grandi dimensioni.
A Simple "Try Again" Can Elicit Multi-Turn LLM Reasoning
July 18, 2025
Autori: Licheng Liu, Zihan Wang, Linjie Li, Chenwei Xu, Yiping Lu, Han Liu, Avirup Sil, Manling Li
cs.AI
Abstract
La risoluzione di problemi multi-turn è cruciale ma impegnativa per i Large Reasoning Models (LRM) per riflettere sul loro ragionamento e rivedere le risposte in base ai feedback. I metodi esistenti di Reinforcement Learning (RL) addestrano i grandi modelli di ragionamento su un paradigma single-turn con ricompense verificabili. Tuttavia, osserviamo che i modelli addestrati con i paradigmi RL esistenti spesso perdono la capacità di risolvere problemi in più turni e faticano a rivedere le risposte basandosi sui feedback contestuali, portando a risposte ripetitive. Ci chiediamo: i LRM possono imparare a riflettere sulle loro risposte in un contesto multi-turn? In questo lavoro, scopriamo che addestrare i modelli con RL multi-turn utilizzando solo feedback unari (ad esempio, "Proviamo di nuovo") dopo risposte errate può migliorare sia le prestazioni single-turn che il ragionamento multi-turn. Introduciamo il concetto di Unary Feedback as Observation (UFO) per il reinforcement learning, che utilizza feedback unari minimi ma comuni durante la risoluzione iterativa dei problemi. Può essere facilmente applicato alle configurazioni di addestramento RL single-turn esistenti. I risultati sperimentali mostrano che l'addestramento RL con UFO mantiene le prestazioni single-turn e migliora l'accuratezza del ragionamento multi-turn fino al 14%, consentendo ai modelli linguistici di reagire meglio ai feedback nella risoluzione di problemi multi-turn. Per ridurre ulteriormente il numero di turni necessari per una risposta corretta incoraggiando al contempo un ragionamento diversificato quando si verificano errori, progettiamo strutture di ricompensa che guidano i modelli a produrre risposte attente e deliberate in ogni turno. Codice: https://github.com/lichengliu03/unary-feedback
English
Multi-turn problem solving is critical yet challenging for Large Reasoning
Models (LRMs) to reflect on their reasoning and revise from feedback. Existing
Reinforcement Learning (RL) methods train large reasoning models on a
single-turn paradigm with verifiable rewards. However, we observe that models
trained with existing RL paradigms often lose their ability to solve problems
across multiple turns and struggle to revise answers based on contextual
feedback, leading to repetitive responses. We ask: can LRMs learn to reflect
their answers in a multi-turn context? In this work, we find that training
models with multi-turn RL using only unary feedback (e.g., "Let's try again")
after wrong answers can improve both single-turn performance and multi-turn
reasoning. We introduce Unary Feedback as Observation (UFO) for reinforcement
learning, which uses minimal yet common unary user feedback during iterative
problem solving. It can be easily applied to existing single-turn RL training
setups. Experimental results show that RL training with UFO keeps single-turn
performance and improves multi-turn reasoning accuracy by up to 14%, enabling
language models to better react to feedback in multi-turn problem solving. To
further minimize the number of turns needed for a correct answer while
encouraging diverse reasoning when mistakes occur, we design reward structures
that guide models to produce careful and deliberate answers in each turn. Code:
https://github.com/lichengliu03/unary-feedback