Трение обратной связи: крупные языковые модели испытывают трудности с полным усвоением внешних отзывов
Feedback Friction: LLMs Struggle to Fully Incorporate External Feedback
June 13, 2025
Авторы: Dongwei Jiang, Alvin Zhang, Andrew Wang, Nicholas Andrews, Daniel Khashabi
cs.AI
Аннотация
Недавние исследования показали, что крупные языковые модели (LLM) обладают некоторой способностью улучшать свои ответы при получении внешней обратной связи. Однако до сих пор неясно, насколько эффективно и полно эти модели могут интегрировать внешнюю обратную связь. В идеальном сценарии, если LLM получают почти идеальную и полную обратную связь, можно ожидать, что они полностью интегрируют её и изменят свои некорректные ответы на правильные. В данной работе мы систематически исследуем способность LLM учитывать обратную связь, создавая контролируемую экспериментальную среду. Для каждой задачи модель-решатель пытается найти решение, затем генератор обратной связи, имеющий доступ к почти полным эталонным ответам, создаёт целенаправленную обратную связь, после чего решатель пробует снова. Мы оцениваем эту схему на широком спектре задач, включая математические рассуждения, рассуждения на основе знаний, научные рассуждения и общие мультидоменные оценки с использованием современных языковых моделей, таких как Claude 3.7 (с расширенным мышлением и без него). Удивительно, что даже в этих почти идеальных условиях модели-решатели демонстрируют устойчивое сопротивление обратной связи — ограничение, которое мы называем ТРЕНИЕМ ОБРАТНОЙ СВЯЗИ. Для смягчения этого ограничения мы экспериментируем с стратегиями, основанными на сэмплировании, такими как постепенное увеличение температуры и явное отклонение ранее предложенных некорректных ответов, что приводит к улучшениям, но всё же не позволяет моделям достичь целевых показателей. Мы также проводим тщательное исследование потенциальных причин ТРЕНИЯ ОБРАТНОЙ СВЯЗИ, исключая такие факторы, как излишняя уверенность модели и знакомство с данными. Мы надеемся, что акцентирование внимания на этой проблеме в LLM и исключение нескольких очевидных причин помогут будущим исследованиям в области самосовершенствования.
English
Recent studies have shown LLMs possess some ability to improve their
responses when given external feedback. However, it remains unclear how
effectively and thoroughly these models can incorporate extrinsic feedback. In
an ideal scenario, if LLMs receive near-perfect and complete feedback, we would
expect them to fully integrate the feedback and change their incorrect answers
to correct ones. In this paper, we systematically investigate LLMs' ability to
incorporate feedback by designing a controlled experimental environment. For
each problem, a solver model attempts a solution, then a feedback generator
with access to near-complete ground-truth answers produces targeted feedback,
after which the solver tries again. We evaluate this pipeline across a diverse
range of tasks, including math reasoning, knowledge reasoning, scientific
reasoning, and general multi-domain evaluations with state-of-the-art language
models including Claude 3.7 (with and without extended thinking). Surprisingly,
even under these near-ideal conditions, solver models consistently show
resistance to feedback, a limitation that we term FEEDBACK FRICTION. To
mitigate this limitation, we experiment with sampling-based strategies like
progressive temperature increases and explicit rejection of previously
attempted incorrect answers, which yield improvements but still fail to help
models achieve target performance. We also perform a rigorous exploration of
potential causes of FEEDBACK FRICTION, ruling out factors such as model
overconfidence and data familiarity. We hope that highlighting this issue in
LLMs and ruling out several apparent causes will help future research in
self-improvement.