Feedbackwrijving: LLM's hebben moeite om externe feedback volledig te integreren
Feedback Friction: LLMs Struggle to Fully Incorporate External Feedback
June 13, 2025
Auteurs: Dongwei Jiang, Alvin Zhang, Andrew Wang, Nicholas Andrews, Daniel Khashabi
cs.AI
Samenvatting
Recente studies hebben aangetoond dat LLM's enig vermogen hebben om hun reacties te verbeteren wanneer ze externe feedback ontvangen. Het blijft echter onduidelijk hoe effectief en grondig deze modellen extrinsieke feedback kunnen integreren. In een ideaal scenario, als LLM's bijna perfecte en volledige feedback ontvangen, zouden we verwachten dat ze de feedback volledig integreren en hun onjuiste antwoorden corrigeren. In dit artikel onderzoeken we systematisch het vermogen van LLM's om feedback te integreren door een gecontroleerde experimentele omgeving te ontwerpen. Voor elk probleem probeert een oplossingsmodel een oplossing te vinden, waarna een feedbackgenerator met toegang tot bijna volledige grondwaarheid-antwoorden gerichte feedback produceert, waarna het oplossingsmodel opnieuw een poging doet. We evalueren deze pijplijn over een breed scala aan taken, waaronder wiskundig redeneren, kennisredeneren, wetenschappelijk redeneren en algemene multi-domeinevaluaties met state-of-the-art taalmmodellen, waaronder Claude 3.7 (met en zonder uitgebreid denken). Verrassend genoeg tonen oplossingsmodellen zelfs onder deze bijna ideale omstandigheden consistent weerstand tegen feedback, een beperking die we FEEDBACK FRICTION noemen. Om deze beperking te verminderen, experimenteren we met op steekproeven gebaseerde strategieën zoals progressieve temperatuurverhogingen en expliciete afwijzing van eerder geprobeerde onjuiste antwoorden, wat verbeteringen oplevert maar er nog steeds niet in slaagt om modellen te helpen het doelprestatieniveau te bereiken. We voeren ook een grondige verkenning uit van mogelijke oorzaken van FEEDBACK FRICTION, waarbij we factoren zoals modelovermoedigheid en gegevensvertrouwdheid uitsluiten. We hopen dat het benadrukken van dit probleem in LLM's en het uitsluiten van verschillende ogenschijnlijke oorzaken toekomstig onderzoek naar zelfverbetering zal helpen.
English
Recent studies have shown LLMs possess some ability to improve their
responses when given external feedback. However, it remains unclear how
effectively and thoroughly these models can incorporate extrinsic feedback. In
an ideal scenario, if LLMs receive near-perfect and complete feedback, we would
expect them to fully integrate the feedback and change their incorrect answers
to correct ones. In this paper, we systematically investigate LLMs' ability to
incorporate feedback by designing a controlled experimental environment. For
each problem, a solver model attempts a solution, then a feedback generator
with access to near-complete ground-truth answers produces targeted feedback,
after which the solver tries again. We evaluate this pipeline across a diverse
range of tasks, including math reasoning, knowledge reasoning, scientific
reasoning, and general multi-domain evaluations with state-of-the-art language
models including Claude 3.7 (with and without extended thinking). Surprisingly,
even under these near-ideal conditions, solver models consistently show
resistance to feedback, a limitation that we term FEEDBACK FRICTION. To
mitigate this limitation, we experiment with sampling-based strategies like
progressive temperature increases and explicit rejection of previously
attempted incorrect answers, which yield improvements but still fail to help
models achieve target performance. We also perform a rigorous exploration of
potential causes of FEEDBACK FRICTION, ruling out factors such as model
overconfidence and data familiarity. We hope that highlighting this issue in
LLMs and ruling out several apparent causes will help future research in
self-improvement.