Um simples "Tente novamente" pode eliciar raciocínio multi-turn em LLMs
A Simple "Try Again" Can Elicit Multi-Turn LLM Reasoning
July 18, 2025
Autores: Licheng Liu, Zihan Wang, Linjie Li, Chenwei Xu, Yiping Lu, Han Liu, Avirup Sil, Manling Li
cs.AI
Resumo
A resolução de problemas em múltiplos turnos é crucial, porém desafiadora, para Modelos de Raciocínio de Grande Escala (LRMs) refletirem sobre seu raciocínio e revisarem com base em feedback. Os métodos existentes de Aprendizado por Reforço (RL) treinam modelos de raciocínio de grande escala em um paradigma de turno único com recompensas verificáveis. No entanto, observamos que modelos treinados com os paradigmas de RL existentes frequentemente perdem a capacidade de resolver problemas em múltiplos turnos e lutam para revisar respostas com base em feedback contextual, levando a respostas repetitivas. Perguntamos: os LRMs podem aprender a refletir sobre suas respostas em um contexto de múltiplos turnos? Neste trabalho, descobrimos que treinar modelos com RL de múltiplos turnos usando apenas feedback unário (por exemplo, "Vamos tentar novamente") após respostas erradas pode melhorar tanto o desempenho em turno único quanto o raciocínio em múltiplos turnos. Introduzimos o Feedback Unário como Observação (UFO) para aprendizado por reforço, que utiliza feedback unário mínimo, porém comum, durante a resolução iterativa de problemas. Ele pode ser facilmente aplicado a configurações de treinamento de RL de turno único existentes. Resultados experimentais mostram que o treinamento de RL com UFO mantém o desempenho em turno único e melhora a precisão do raciocínio em múltiplos turnos em até 14%, permitindo que modelos de linguagem reajam melhor ao feedback na resolução de problemas em múltiplos turnos. Para minimizar ainda mais o número de turnos necessários para uma resposta correta, ao mesmo tempo em que incentivamos raciocínios diversos quando ocorrem erros, projetamos estruturas de recompensa que orientam os modelos a produzir respostas cuidadosas e deliberadas em cada turno. Código: https://github.com/lichengliu03/unary-feedback
English
Multi-turn problem solving is critical yet challenging for Large Reasoning
Models (LRMs) to reflect on their reasoning and revise from feedback. Existing
Reinforcement Learning (RL) methods train large reasoning models on a
single-turn paradigm with verifiable rewards. However, we observe that models
trained with existing RL paradigms often lose their ability to solve problems
across multiple turns and struggle to revise answers based on contextual
feedback, leading to repetitive responses. We ask: can LRMs learn to reflect
their answers in a multi-turn context? In this work, we find that training
models with multi-turn RL using only unary feedback (e.g., "Let's try again")
after wrong answers can improve both single-turn performance and multi-turn
reasoning. We introduce Unary Feedback as Observation (UFO) for reinforcement
learning, which uses minimal yet common unary user feedback during iterative
problem solving. It can be easily applied to existing single-turn RL training
setups. Experimental results show that RL training with UFO keeps single-turn
performance and improves multi-turn reasoning accuracy by up to 14%, enabling
language models to better react to feedback in multi-turn problem solving. To
further minimize the number of turns needed for a correct answer while
encouraging diverse reasoning when mistakes occur, we design reward structures
that guide models to produce careful and deliberate answers in each turn. Code:
https://github.com/lichengliu03/unary-feedback