Простое "Попробуйте снова" может стимулировать многошаговое рассуждение в языковых моделях
A Simple "Try Again" Can Elicit Multi-Turn LLM Reasoning
July 18, 2025
Авторы: Licheng Liu, Zihan Wang, Linjie Li, Chenwei Xu, Yiping Lu, Han Liu, Avirup Sil, Manling Li
cs.AI
Аннотация
Многошаговое решение задач является критически важным, но сложным для крупных моделей рассуждений (Large Reasoning Models, LRMs), чтобы они могли анализировать свои рассуждения и корректировать их на основе обратной связи. Существующие методы обучения с подкреплением (Reinforcement Learning, RL) обучают крупные модели рассуждений в рамках одношаговой парадигмы с проверяемыми вознаграждениями. Однако мы наблюдаем, что модели, обученные с использованием существующих парадигм RL, часто теряют способность решать задачи в многошаговом контексте и испытывают трудности с корректировкой ответов на основе контекстной обратной связи, что приводит к повторяющимся ответам. Мы задаемся вопросом: могут ли LRMs научиться анализировать свои ответы в многошаговом контексте? В данной работе мы обнаруживаем, что обучение моделей с использованием многошагового RL с минимальной обратной связью (например, "Давайте попробуем снова") после неправильных ответов может улучшить как одношаговую производительность, так и многошаговое рассуждение. Мы представляем метод "Минимальная обратная связь как наблюдение" (Unary Feedback as Observation, UFO) для обучения с подкреплением, который использует минимальную, но распространенную обратную связь пользователя в процессе итеративного решения задач. Этот метод может быть легко интегрирован в существующие одношаговые RL-тренировочные настройки. Экспериментальные результаты показывают, что обучение с подкреплением с использованием UFO сохраняет одношаговую производительность и повышает точность многошагового рассуждения до 14%, что позволяет языковым моделям лучше реагировать на обратную связь при многошаговом решении задач. Для дальнейшего минимизации количества шагов, необходимых для получения правильного ответа, и поощрения разнообразного рассуждения при возникновении ошибок, мы разрабатываем структуры вознаграждений, которые направляют модели на создание тщательных и обдуманных ответов на каждом шаге. Код: https://github.com/lichengliu03/unary-feedback
English
Multi-turn problem solving is critical yet challenging for Large Reasoning
Models (LRMs) to reflect on their reasoning and revise from feedback. Existing
Reinforcement Learning (RL) methods train large reasoning models on a
single-turn paradigm with verifiable rewards. However, we observe that models
trained with existing RL paradigms often lose their ability to solve problems
across multiple turns and struggle to revise answers based on contextual
feedback, leading to repetitive responses. We ask: can LRMs learn to reflect
their answers in a multi-turn context? In this work, we find that training
models with multi-turn RL using only unary feedback (e.g., "Let's try again")
after wrong answers can improve both single-turn performance and multi-turn
reasoning. We introduce Unary Feedback as Observation (UFO) for reinforcement
learning, which uses minimal yet common unary user feedback during iterative
problem solving. It can be easily applied to existing single-turn RL training
setups. Experimental results show that RL training with UFO keeps single-turn
performance and improves multi-turn reasoning accuracy by up to 14%, enabling
language models to better react to feedback in multi-turn problem solving. To
further minimize the number of turns needed for a correct answer while
encouraging diverse reasoning when mistakes occur, we design reward structures
that guide models to produce careful and deliberate answers in each turn. Code:
https://github.com/lichengliu03/unary-feedback