ChatPaper.aiChatPaper

Встроенная обратная связь: новый подход к управлению большими языковыми моделями в многошаговых рассуждениях

In-Place Feedback: A New Paradigm for Guiding LLMs in Multi-Turn Reasoning

October 1, 2025
Авторы: Youngbin Choi, Minjong Lee, Saemi Moon, Seunghyuk Cho, Chaehyeon Chung, MoonJeong Park, Dongwoo Kim
cs.AI

Аннотация

Крупные языковые модели (LLM) всё чаще исследуются в контексте многошагового рассуждения, где модели итеративно уточняют свои выходные данные на основе обратной связи, предоставленной пользователем. Такие сценарии критически важны для задач, требующих сложного рассуждения, однако существующие парадигмы обратной связи часто основываются на отправке новых сообщений. LLM испытывают трудности с надёжной интеграцией такой обратной связи, что приводит к нестабильным улучшениям. В данной работе мы представляем in-place feedback — новую парадигму взаимодействия, в которой пользователи напрямую редактируют предыдущий ответ LLM, а модель учитывает это изменённое сообщение для генерации своей пересмотренной версии. Эмпирические оценки на разнообразных тестах, требующих интенсивного рассуждения, показывают, что in-place feedback обеспечивает лучшую производительность по сравнению с традиционной многошаговой обратной связью, при этом используя на 79,1% меньше токенов. Дополнительные анализы в контролируемых условиях также демонстрируют, что in-place feedback устраняет ключевое ограничение многошаговой обратной связи: модели часто не могут применить обратную связь точно к ошибочным частям ответа, оставляя ошибки неисправленными и иногда внося новые ошибки в ранее корректные части. Эти результаты позволяют предположить, что in-place feedback предлагает более естественный и эффективный механизм для навигации LLM в задачах, требующих интенсивного рассуждения.
English
Large language models (LLMs) are increasingly studied in the context of multi-turn reasoning, where models iteratively refine their outputs based on user-provided feedback. Such settings are crucial for tasks that require complex reasoning, yet existing feedback paradigms often rely on issuing new messages. LLMs struggle to integrate these reliably, leading to inconsistent improvements. In this work, we introduce in-place feedback, a novel interaction paradigm in which users directly edit an LLM's previous response, and the model conditions on this modified response to generate its revision. Empirical evaluations on diverse reasoning-intensive benchmarks reveal that in-place feedback achieves better performance than conventional multi-turn feedback while using 79.1% fewer tokens. Complementary analyses on controlled environments further demonstrate that in-place feedback resolves a core limitation of multi-turn feedback: models often fail to apply feedback precisely to erroneous parts of the response, leaving errors uncorrected and sometimes introducing new mistakes into previously correct content. These findings suggest that in-place feedback offers a more natural and effective mechanism for guiding LLMs in reasoning-intensive tasks.
PDF21October 2, 2025