ChatPaper.aiChatPaper

Feedbackwrijving: LLM's hebben moeite om externe feedback volledig te integreren

Feedback Friction: LLMs Struggle to Fully Incorporate External Feedback

June 13, 2025
Auteurs: Dongwei Jiang, Alvin Zhang, Andrew Wang, Nicholas Andrews, Daniel Khashabi
cs.AI

Samenvatting

Recente studies hebben aangetoond dat LLM's enig vermogen hebben om hun reacties te verbeteren wanneer ze externe feedback ontvangen. Het blijft echter onduidelijk hoe effectief en grondig deze modellen extrinsieke feedback kunnen integreren. In een ideaal scenario, als LLM's bijna perfecte en volledige feedback ontvangen, zouden we verwachten dat ze de feedback volledig integreren en hun onjuiste antwoorden corrigeren. In dit artikel onderzoeken we systematisch het vermogen van LLM's om feedback te integreren door een gecontroleerde experimentele omgeving te ontwerpen. Voor elk probleem probeert een oplossingsmodel een oplossing te vinden, waarna een feedbackgenerator met toegang tot bijna volledige grondwaarheid-antwoorden gerichte feedback produceert, waarna het oplossingsmodel opnieuw een poging doet. We evalueren deze pijplijn over een breed scala aan taken, waaronder wiskundig redeneren, kennisredeneren, wetenschappelijk redeneren en algemene multi-domeinevaluaties met state-of-the-art taalmmodellen, waaronder Claude 3.7 (met en zonder uitgebreid denken). Verrassend genoeg tonen oplossingsmodellen zelfs onder deze bijna ideale omstandigheden consistent weerstand tegen feedback, een beperking die we FEEDBACK FRICTION noemen. Om deze beperking te verminderen, experimenteren we met op steekproeven gebaseerde strategieën zoals progressieve temperatuurverhogingen en expliciete afwijzing van eerder geprobeerde onjuiste antwoorden, wat verbeteringen oplevert maar er nog steeds niet in slaagt om modellen te helpen het doelprestatieniveau te bereiken. We voeren ook een grondige verkenning uit van mogelijke oorzaken van FEEDBACK FRICTION, waarbij we factoren zoals modelovermoedigheid en gegevensvertrouwdheid uitsluiten. We hopen dat het benadrukken van dit probleem in LLM's en het uitsluiten van verschillende ogenschijnlijke oorzaken toekomstig onderzoek naar zelfverbetering zal helpen.
English
Recent studies have shown LLMs possess some ability to improve their responses when given external feedback. However, it remains unclear how effectively and thoroughly these models can incorporate extrinsic feedback. In an ideal scenario, if LLMs receive near-perfect and complete feedback, we would expect them to fully integrate the feedback and change their incorrect answers to correct ones. In this paper, we systematically investigate LLMs' ability to incorporate feedback by designing a controlled experimental environment. For each problem, a solver model attempts a solution, then a feedback generator with access to near-complete ground-truth answers produces targeted feedback, after which the solver tries again. We evaluate this pipeline across a diverse range of tasks, including math reasoning, knowledge reasoning, scientific reasoning, and general multi-domain evaluations with state-of-the-art language models including Claude 3.7 (with and without extended thinking). Surprisingly, even under these near-ideal conditions, solver models consistently show resistance to feedback, a limitation that we term FEEDBACK FRICTION. To mitigate this limitation, we experiment with sampling-based strategies like progressive temperature increases and explicit rejection of previously attempted incorrect answers, which yield improvements but still fail to help models achieve target performance. We also perform a rigorous exploration of potential causes of FEEDBACK FRICTION, ruling out factors such as model overconfidence and data familiarity. We hope that highlighting this issue in LLMs and ruling out several apparent causes will help future research in self-improvement.
PDF553June 16, 2025