Friction des retours : les LLM peinent à intégrer pleinement les retours externes
Feedback Friction: LLMs Struggle to Fully Incorporate External Feedback
June 13, 2025
papers.authors: Dongwei Jiang, Alvin Zhang, Andrew Wang, Nicholas Andrews, Daniel Khashabi
cs.AI
papers.abstract
Des études récentes ont montré que les modèles de langage de grande taille (LLM) possèdent une certaine capacité à améliorer leurs réponses lorsqu'ils reçoivent un retour d'information externe. Cependant, il reste incertain à quel point ces modèles peuvent intégrer efficacement et de manière approfondie ce retour d'information extrinsèque. Dans un scénario idéal, si les LLM reçoivent un retour d'information quasi parfait et complet, on s'attendrait à ce qu'ils intègrent pleinement ce retour et modifient leurs réponses incorrectes pour les corriger. Dans cet article, nous étudions systématiquement la capacité des LLM à intégrer un retour d'information en concevant un environnement expérimental contrôlé. Pour chaque problème, un modèle de résolution tente une solution, puis un générateur de retour d'information ayant accès à des réponses de référence quasi complètes produit un retour ciblé, après quoi le modèle de résolution essaie à nouveau. Nous évaluons ce pipeline sur une gamme variée de tâches, incluant le raisonnement mathématique, le raisonnement de connaissances, le raisonnement scientifique et des évaluations multi-domaines générales avec des modèles de langage de pointe, y compris Claude 3.7 (avec et sans pensée étendue). Étonnamment, même dans ces conditions quasi idéales, les modèles de résolution montrent une résistance persistante au retour d'information, une limitation que nous nommons FRICTION DE RETOUR. Pour atténuer cette limitation, nous expérimentons avec des stratégies basées sur l'échantillonnage comme des augmentations progressives de la température et le rejet explicite des réponses incorrectes précédemment tentées, ce qui apporte des améliorations mais ne permet toujours pas aux modèles d'atteindre les performances cibles. Nous effectuons également une exploration rigoureuse des causes potentielles de la FRICTION DE RETOUR, en écartant des facteurs tels que la surconfiance du modèle et la familiarité avec les données. Nous espérons que la mise en lumière de ce problème dans les LLM et l'élimination de plusieurs causes apparentes aideront les recherches futures sur l'auto-amélioration.
English
Recent studies have shown LLMs possess some ability to improve their
responses when given external feedback. However, it remains unclear how
effectively and thoroughly these models can incorporate extrinsic feedback. In
an ideal scenario, if LLMs receive near-perfect and complete feedback, we would
expect them to fully integrate the feedback and change their incorrect answers
to correct ones. In this paper, we systematically investigate LLMs' ability to
incorporate feedback by designing a controlled experimental environment. For
each problem, a solver model attempts a solution, then a feedback generator
with access to near-complete ground-truth answers produces targeted feedback,
after which the solver tries again. We evaluate this pipeline across a diverse
range of tasks, including math reasoning, knowledge reasoning, scientific
reasoning, and general multi-domain evaluations with state-of-the-art language
models including Claude 3.7 (with and without extended thinking). Surprisingly,
even under these near-ideal conditions, solver models consistently show
resistance to feedback, a limitation that we term FEEDBACK FRICTION. To
mitigate this limitation, we experiment with sampling-based strategies like
progressive temperature increases and explicit rejection of previously
attempted incorrect answers, which yield improvements but still fail to help
models achieve target performance. We also perform a rigorous exploration of
potential causes of FEEDBACK FRICTION, ruling out factors such as model
overconfidence and data familiarity. We hope that highlighting this issue in
LLMs and ruling out several apparent causes will help future research in
self-improvement.