Retroalimentación In Situ: Un Nuevo Paradigma para Guiar a los Modelos de Lenguaje en el Razonamiento de Múltiples Vueltas
In-Place Feedback: A New Paradigm for Guiding LLMs in Multi-Turn Reasoning
October 1, 2025
Autores: Youngbin Choi, Minjong Lee, Saemi Moon, Seunghyuk Cho, Chaehyeon Chung, MoonJeong Park, Dongwoo Kim
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) son cada vez más estudiados en el contexto del razonamiento multi-turn, donde los modelos refinan iterativamente sus salidas basándose en la retroalimentación proporcionada por el usuario. Estos escenarios son cruciales para tareas que requieren razonamiento complejo, aunque los paradigmas de retroalimentación existentes suelen depender de la emisión de nuevos mensajes. Los LLMs tienen dificultades para integrar estos mensajes de manera confiable, lo que lleva a mejoras inconsistentes. En este trabajo, introducimos la retroalimentación in situ, un paradigma de interacción novedoso en el que los usuarios editan directamente la respuesta previa de un LLM, y el modelo se condiciona a esta respuesta modificada para generar su revisión. Evaluaciones empíricas en diversos benchmarks intensivos en razonamiento revelan que la retroalimentación in situ logra un mejor rendimiento que la retroalimentación multi-turn convencional, utilizando un 79.1% menos de tokens. Análisis complementarios en entornos controlados demuestran además que la retroalimentación in situ resuelve una limitación fundamental de la retroalimentación multi-turn: los modelos a menudo no aplican la retroalimentación de manera precisa a las partes erróneas de la respuesta, dejando errores sin corregir y, en ocasiones, introduciendo nuevos errores en contenido previamente correcto. Estos hallazgos sugieren que la retroalimentación in situ ofrece un mecanismo más natural y efectivo para guiar a los LLMs en tareas intensivas en razonamiento.
English
Large language models (LLMs) are increasingly studied in the context of
multi-turn reasoning, where models iteratively refine their outputs based on
user-provided feedback. Such settings are crucial for tasks that require
complex reasoning, yet existing feedback paradigms often rely on issuing new
messages. LLMs struggle to integrate these reliably, leading to inconsistent
improvements. In this work, we introduce in-place feedback, a novel interaction
paradigm in which users directly edit an LLM's previous response, and the model
conditions on this modified response to generate its revision. Empirical
evaluations on diverse reasoning-intensive benchmarks reveal that in-place
feedback achieves better performance than conventional multi-turn feedback
while using 79.1% fewer tokens. Complementary analyses on controlled
environments further demonstrate that in-place feedback resolves a core
limitation of multi-turn feedback: models often fail to apply feedback
precisely to erroneous parts of the response, leaving errors uncorrected and
sometimes introducing new mistakes into previously correct content. These
findings suggest that in-place feedback offers a more natural and effective
mechanism for guiding LLMs in reasoning-intensive tasks.