ChatPaper.aiChatPaper

Трение обратной связи: крупные языковые модели испытывают трудности с полным усвоением внешних отзывов

Feedback Friction: LLMs Struggle to Fully Incorporate External Feedback

June 13, 2025
Авторы: Dongwei Jiang, Alvin Zhang, Andrew Wang, Nicholas Andrews, Daniel Khashabi
cs.AI

Аннотация

Недавние исследования показали, что крупные языковые модели (LLM) обладают некоторой способностью улучшать свои ответы при получении внешней обратной связи. Однако до сих пор неясно, насколько эффективно и полно эти модели могут интегрировать внешнюю обратную связь. В идеальном сценарии, если LLM получают почти идеальную и полную обратную связь, можно ожидать, что они полностью интегрируют её и изменят свои некорректные ответы на правильные. В данной работе мы систематически исследуем способность LLM учитывать обратную связь, создавая контролируемую экспериментальную среду. Для каждой задачи модель-решатель пытается найти решение, затем генератор обратной связи, имеющий доступ к почти полным эталонным ответам, создаёт целенаправленную обратную связь, после чего решатель пробует снова. Мы оцениваем эту схему на широком спектре задач, включая математические рассуждения, рассуждения на основе знаний, научные рассуждения и общие мультидоменные оценки с использованием современных языковых моделей, таких как Claude 3.7 (с расширенным мышлением и без него). Удивительно, что даже в этих почти идеальных условиях модели-решатели демонстрируют устойчивое сопротивление обратной связи — ограничение, которое мы называем ТРЕНИЕМ ОБРАТНОЙ СВЯЗИ. Для смягчения этого ограничения мы экспериментируем с стратегиями, основанными на сэмплировании, такими как постепенное увеличение температуры и явное отклонение ранее предложенных некорректных ответов, что приводит к улучшениям, но всё же не позволяет моделям достичь целевых показателей. Мы также проводим тщательное исследование потенциальных причин ТРЕНИЯ ОБРАТНОЙ СВЯЗИ, исключая такие факторы, как излишняя уверенность модели и знакомство с данными. Мы надеемся, что акцентирование внимания на этой проблеме в LLM и исключение нескольких очевидных причин помогут будущим исследованиям в области самосовершенствования.
English
Recent studies have shown LLMs possess some ability to improve their responses when given external feedback. However, it remains unclear how effectively and thoroughly these models can incorporate extrinsic feedback. In an ideal scenario, if LLMs receive near-perfect and complete feedback, we would expect them to fully integrate the feedback and change their incorrect answers to correct ones. In this paper, we systematically investigate LLMs' ability to incorporate feedback by designing a controlled experimental environment. For each problem, a solver model attempts a solution, then a feedback generator with access to near-complete ground-truth answers produces targeted feedback, after which the solver tries again. We evaluate this pipeline across a diverse range of tasks, including math reasoning, knowledge reasoning, scientific reasoning, and general multi-domain evaluations with state-of-the-art language models including Claude 3.7 (with and without extended thinking). Surprisingly, even under these near-ideal conditions, solver models consistently show resistance to feedback, a limitation that we term FEEDBACK FRICTION. To mitigate this limitation, we experiment with sampling-based strategies like progressive temperature increases and explicit rejection of previously attempted incorrect answers, which yield improvements but still fail to help models achieve target performance. We also perform a rigorous exploration of potential causes of FEEDBACK FRICTION, ruling out factors such as model overconfidence and data familiarity. We hope that highlighting this issue in LLMs and ruling out several apparent causes will help future research in self-improvement.
PDF462June 16, 2025