Attrito del Feedback: i Modelli Linguistici di Grandi Dimensioni Faticano a Incorporare Completamente il Feedback Esterno
Feedback Friction: LLMs Struggle to Fully Incorporate External Feedback
June 13, 2025
Autori: Dongwei Jiang, Alvin Zhang, Andrew Wang, Nicholas Andrews, Daniel Khashabi
cs.AI
Abstract
Studi recenti hanno dimostrato che i modelli linguistici di grandi dimensioni (LLM) possiedono una certa capacità di migliorare le proprie risposte quando ricevono feedback esterni. Tuttavia, rimane poco chiaro quanto efficacemente e accuratamente questi modelli possano incorporare feedback estrinseci. In uno scenario ideale, se gli LLM ricevessero feedback quasi perfetti e completi, ci aspetteremmo che integrino completamente il feedback e modifichino le loro risposte errate in quelle corrette. In questo articolo, indaghiamo sistematicamente la capacità degli LLM di incorporare il feedback progettando un ambiente sperimentale controllato. Per ogni problema, un modello risolutore tenta una soluzione, quindi un generatore di feedback con accesso a risposte di riferimento quasi complete produce feedback mirato, dopo di che il risolutore tenta nuovamente. Valutiamo questa pipeline su un'ampia gamma di compiti, tra cui ragionamento matematico, ragionamento basato su conoscenze, ragionamento scientifico e valutazioni multi-dominio generali con modelli linguistici all'avanguardia, tra cui Claude 3.7 (con e senza pensiero esteso). Sorprendentemente, anche in queste condizioni quasi ideali, i modelli risolutori mostrano costantemente resistenza al feedback, una limitazione che definiamo FRICTIONE DEL FEEDBACK. Per mitigare questa limitazione, sperimentiamo strategie basate sul campionamento come aumenti progressivi della temperatura e il rifiuto esplicito di risposte errate precedentemente tentate, che portano a miglioramenti ma non consentono ancora ai modelli di raggiungere le prestazioni target. Effettuiamo inoltre un'esplorazione rigorosa delle potenziali cause della FRICTIONE DEL FEEDBACK, escludendo fattori come l'eccessiva sicurezza del modello e la familiarità con i dati. Speriamo che evidenziare questo problema negli LLM ed escludere diverse cause apparenti possa aiutare la ricerca futura sull'auto-miglioramento.
English
Recent studies have shown LLMs possess some ability to improve their
responses when given external feedback. However, it remains unclear how
effectively and thoroughly these models can incorporate extrinsic feedback. In
an ideal scenario, if LLMs receive near-perfect and complete feedback, we would
expect them to fully integrate the feedback and change their incorrect answers
to correct ones. In this paper, we systematically investigate LLMs' ability to
incorporate feedback by designing a controlled experimental environment. For
each problem, a solver model attempts a solution, then a feedback generator
with access to near-complete ground-truth answers produces targeted feedback,
after which the solver tries again. We evaluate this pipeline across a diverse
range of tasks, including math reasoning, knowledge reasoning, scientific
reasoning, and general multi-domain evaluations with state-of-the-art language
models including Claude 3.7 (with and without extended thinking). Surprisingly,
even under these near-ideal conditions, solver models consistently show
resistance to feedback, a limitation that we term FEEDBACK FRICTION. To
mitigate this limitation, we experiment with sampling-based strategies like
progressive temperature increases and explicit rejection of previously
attempted incorrect answers, which yield improvements but still fail to help
models achieve target performance. We also perform a rigorous exploration of
potential causes of FEEDBACK FRICTION, ruling out factors such as model
overconfidence and data familiarity. We hope that highlighting this issue in
LLMs and ruling out several apparent causes will help future research in
self-improvement.