Fricción en la Retroalimentación: Los Modelos de Lenguaje de Gran Escala Tienen Dificultades para Incorporar Completamente la Retroalimentación Externa
Feedback Friction: LLMs Struggle to Fully Incorporate External Feedback
June 13, 2025
Autores: Dongwei Jiang, Alvin Zhang, Andrew Wang, Nicholas Andrews, Daniel Khashabi
cs.AI
Resumen
Estudios recientes han demostrado que los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) poseen cierta capacidad para mejorar sus respuestas cuando reciben retroalimentación externa. Sin embargo, aún no está claro cuán efectiva y exhaustivamente estos modelos pueden incorporar retroalimentación extrínseca. En un escenario ideal, si los LLMs reciben retroalimentación casi perfecta y completa, esperaríamos que integraran plenamente dicha retroalimentación y cambiaran sus respuestas incorrectas por respuestas correctas. En este artículo, investigamos sistemáticamente la capacidad de los LLMs para incorporar retroalimentación mediante el diseño de un entorno experimental controlado. Para cada problema, un modelo solucionador intenta dar una solución, luego un generador de retroalimentación con acceso a respuestas de referencia casi completas produce retroalimentación dirigida, después de lo cual el solucionador intenta nuevamente. Evaluamos este proceso en una amplia gama de tareas, incluyendo razonamiento matemático, razonamiento de conocimiento, razonamiento científico y evaluaciones generales de múltiples dominios con modelos de lenguaje de última generación, como Claude 3.7 (con y sin pensamiento extendido). Sorprendentemente, incluso bajo estas condiciones casi ideales, los modelos solucionadores muestran consistentemente resistencia a la retroalimentación, una limitación que denominamos FRICCIÓN DE RETROALIMENTACIÓN. Para mitigar esta limitación, experimentamos con estrategias basadas en muestreo, como aumentos progresivos de temperatura y el rechazo explícito de respuestas incorrectas previamente intentadas, lo que produce mejoras pero aún no logra que los modelos alcancen el rendimiento objetivo. También realizamos una exploración rigurosa de las posibles causas de la FRICCIÓN DE RETROALIMENTACIÓN, descartando factores como la sobreconfianza del modelo y la familiaridad con los datos. Esperamos que destacar este problema en los LLMs y descartar varias causas aparentes ayude a futuras investigaciones en el ámbito de la automejora.
English
Recent studies have shown LLMs possess some ability to improve their
responses when given external feedback. However, it remains unclear how
effectively and thoroughly these models can incorporate extrinsic feedback. In
an ideal scenario, if LLMs receive near-perfect and complete feedback, we would
expect them to fully integrate the feedback and change their incorrect answers
to correct ones. In this paper, we systematically investigate LLMs' ability to
incorporate feedback by designing a controlled experimental environment. For
each problem, a solver model attempts a solution, then a feedback generator
with access to near-complete ground-truth answers produces targeted feedback,
after which the solver tries again. We evaluate this pipeline across a diverse
range of tasks, including math reasoning, knowledge reasoning, scientific
reasoning, and general multi-domain evaluations with state-of-the-art language
models including Claude 3.7 (with and without extended thinking). Surprisingly,
even under these near-ideal conditions, solver models consistently show
resistance to feedback, a limitation that we term FEEDBACK FRICTION. To
mitigate this limitation, we experiment with sampling-based strategies like
progressive temperature increases and explicit rejection of previously
attempted incorrect answers, which yield improvements but still fail to help
models achieve target performance. We also perform a rigorous exploration of
potential causes of FEEDBACK FRICTION, ruling out factors such as model
overconfidence and data familiarity. We hope that highlighting this issue in
LLMs and ruling out several apparent causes will help future research in
self-improvement.