Un simple "Inténtalo de nuevo" puede desencadenar un razonamiento de múltiples turnos en modelos de lenguaje grandes (LLM).
A Simple "Try Again" Can Elicit Multi-Turn LLM Reasoning
July 18, 2025
Autores: Licheng Liu, Zihan Wang, Linjie Li, Chenwei Xu, Yiping Lu, Han Liu, Avirup Sil, Manling Li
cs.AI
Resumen
La resolución de problemas en múltiples turnos es crucial pero desafiante para los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) para reflexionar sobre su razonamiento y revisar a partir de retroalimentación. Los métodos existentes de Aprendizaje por Refuerzo (RL, por sus siglas en inglés) entrenan modelos de razonamiento a gran escala en un paradigma de un solo turno con recompensas verificables. Sin embargo, observamos que los modelos entrenados con los paradigmas de RL existentes a menudo pierden su capacidad para resolver problemas en múltiples turnos y luchan por revisar respuestas basadas en retroalimentación contextual, lo que lleva a respuestas repetitivas. Nos preguntamos: ¿pueden los LRMs aprender a reflexionar sobre sus respuestas en un contexto de múltiples turnos? En este trabajo, encontramos que entrenar modelos con RL de múltiples turnos utilizando únicamente retroalimentación unaria (por ejemplo, "Intentemos de nuevo") después de respuestas incorrectas puede mejorar tanto el rendimiento en un solo turno como el razonamiento en múltiples turnos. Introducimos la Retroalimentación Unaria como Observación (UFO, por sus siglas en inglés) para el aprendizaje por refuerzo, que utiliza retroalimentación unaria mínima pero común durante la resolución iterativa de problemas. Puede aplicarse fácilmente a configuraciones de entrenamiento de RL de un solo turno existentes. Los resultados experimentales muestran que el entrenamiento de RL con UFO mantiene el rendimiento en un solo turno y mejora la precisión del razonamiento en múltiples turnos hasta en un 14%, permitiendo que los modelos de lenguaje reaccionen mejor a la retroalimentación en la resolución de problemas en múltiples turnos. Para minimizar aún más el número de turnos necesarios para una respuesta correcta mientras se fomenta un razonamiento diverso cuando ocurren errores, diseñamos estructuras de recompensa que guían a los modelos a producir respuestas cuidadosas y deliberadas en cada turno. Código: https://github.com/lichengliu03/unary-feedback
English
Multi-turn problem solving is critical yet challenging for Large Reasoning
Models (LRMs) to reflect on their reasoning and revise from feedback. Existing
Reinforcement Learning (RL) methods train large reasoning models on a
single-turn paradigm with verifiable rewards. However, we observe that models
trained with existing RL paradigms often lose their ability to solve problems
across multiple turns and struggle to revise answers based on contextual
feedback, leading to repetitive responses. We ask: can LRMs learn to reflect
their answers in a multi-turn context? In this work, we find that training
models with multi-turn RL using only unary feedback (e.g., "Let's try again")
after wrong answers can improve both single-turn performance and multi-turn
reasoning. We introduce Unary Feedback as Observation (UFO) for reinforcement
learning, which uses minimal yet common unary user feedback during iterative
problem solving. It can be easily applied to existing single-turn RL training
setups. Experimental results show that RL training with UFO keeps single-turn
performance and improves multi-turn reasoning accuracy by up to 14%, enabling
language models to better react to feedback in multi-turn problem solving. To
further minimize the number of turns needed for a correct answer while
encouraging diverse reasoning when mistakes occur, we design reward structures
that guide models to produce careful and deliberate answers in each turn. Code:
https://github.com/lichengliu03/unary-feedback