Friction des retours : les LLM peinent à intégrer pleinement les retours externes

papers.abstract

Des études récentes ont montré que les modèles de langage de grande taille (LLM) possèdent une certaine capacité à améliorer leurs réponses lorsqu'ils reçoivent un retour d'information externe. Cependant, il reste incertain à quel point ces modèles peuvent intégrer efficacement et de manière approfondie ce retour d'information extrinsèque. Dans un scénario idéal, si les LLM reçoivent un retour d'information quasi parfait et complet, on s'attendrait à ce qu'ils intègrent pleinement ce retour et modifient leurs réponses incorrectes pour les corriger. Dans cet article, nous étudions systématiquement la capacité des LLM à intégrer un retour d'information en concevant un environnement expérimental contrôlé. Pour chaque problème, un modèle de résolution tente une solution, puis un générateur de retour d'information ayant accès à des réponses de référence quasi complètes produit un retour ciblé, après quoi le modèle de résolution essaie à nouveau. Nous évaluons ce pipeline sur une gamme variée de tâches, incluant le raisonnement mathématique, le raisonnement de connaissances, le raisonnement scientifique et des évaluations multi-domaines générales avec des modèles de langage de pointe, y compris Claude 3.7 (avec et sans pensée étendue). Étonnamment, même dans ces conditions quasi idéales, les modèles de résolution montrent une résistance persistante au retour d'information, une limitation que nous nommons FRICTION DE RETOUR. Pour atténuer cette limitation, nous expérimentons avec des stratégies basées sur l'échantillonnage comme des augmentations progressives de la température et le rejet explicite des réponses incorrectes précédemment tentées, ce qui apporte des améliorations mais ne permet toujours pas aux modèles d'atteindre les performances cibles. Nous effectuons également une exploration rigoureuse des causes potentielles de la FRICTION DE RETOUR, en écartant des facteurs tels que la surconfiance du modèle et la familiarité avec les données. Nous espérons que la mise en lumière de ce problème dans les LLM et l'élimination de plusieurs causes apparentes aideront les recherches futures sur l'auto-amélioration.

English

Recent studies have shown LLMs possess some ability to improve their responses when given external feedback. However, it remains unclear how effectively and thoroughly these models can incorporate extrinsic feedback. In an ideal scenario, if LLMs receive near-perfect and complete feedback, we would expect them to fully integrate the feedback and change their incorrect answers to correct ones. In this paper, we systematically investigate LLMs' ability to incorporate feedback by designing a controlled experimental environment. For each problem, a solver model attempts a solution, then a feedback generator with access to near-complete ground-truth answers produces targeted feedback, after which the solver tries again. We evaluate this pipeline across a diverse range of tasks, including math reasoning, knowledge reasoning, scientific reasoning, and general multi-domain evaluations with state-of-the-art language models including Claude 3.7 (with and without extended thinking). Surprisingly, even under these near-ideal conditions, solver models consistently show resistance to feedback, a limitation that we term FEEDBACK FRICTION. To mitigate this limitation, we experiment with sampling-based strategies like progressive temperature increases and explicit rejection of previously attempted incorrect answers, which yield improvements but still fail to help models achieve target performance. We also perform a rigorous exploration of potential causes of FEEDBACK FRICTION, ruling out factors such as model overconfidence and data familiarity. We hope that highlighting this issue in LLMs and ruling out several apparent causes will help future research in self-improvement.

Friction des retours : les LLM peinent à intégrer pleinement les retours externes

Feedback Friction: LLMs Struggle to Fully Incorporate External Feedback

papers.abstract

Support