Retour en Temps Réel : Un Nouveau Paradigme pour Guider les LLM dans le Raisonnement à Tours Multiples
In-Place Feedback: A New Paradigm for Guiding LLMs in Multi-Turn Reasoning
October 1, 2025
papers.authors: Youngbin Choi, Minjong Lee, Saemi Moon, Seunghyuk Cho, Chaehyeon Chung, MoonJeong Park, Dongwoo Kim
cs.AI
papers.abstract
Les grands modèles de langage (LLMs) sont de plus en plus étudiés dans le contexte du raisonnement multi-tours, où les modèles affinent itérativement leurs sorties en fonction des retours fournis par l'utilisateur. De tels cadres sont essentiels pour les tâches nécessitant un raisonnement complexe, mais les paradigmes de feedback existants reposent souvent sur l'émission de nouveaux messages. Les LLMs peinent à intégrer ces retours de manière fiable, ce qui entraîne des améliorations incohérentes. Dans ce travail, nous introduisons le feedback en place, un nouveau paradigme d'interaction dans lequel les utilisateurs modifient directement la réponse précédente d'un LLM, et le modèle s'appuie sur cette réponse modifiée pour générer sa révision. Des évaluations empiriques sur divers benchmarks exigeants en raisonnement révèlent que le feedback en place obtient de meilleures performances que le feedback multi-tours conventionnel tout en utilisant 79,1 % de tokens en moins. Des analyses complémentaires dans des environnements contrôlés démontrent en outre que le feedback en place résout une limitation fondamentale du feedback multi-tours : les modèles échouent souvent à appliquer le feedback de manière précise aux parties erronées de la réponse, laissant des erreurs non corrigées et introduisant parfois de nouvelles erreurs dans des contenus précédemment corrects. Ces résultats suggèrent que le feedback en place offre un mécanisme plus naturel et efficace pour guider les LLMs dans des tâches exigeantes en raisonnement.
English
Large language models (LLMs) are increasingly studied in the context of
multi-turn reasoning, where models iteratively refine their outputs based on
user-provided feedback. Such settings are crucial for tasks that require
complex reasoning, yet existing feedback paradigms often rely on issuing new
messages. LLMs struggle to integrate these reliably, leading to inconsistent
improvements. In this work, we introduce in-place feedback, a novel interaction
paradigm in which users directly edit an LLM's previous response, and the model
conditions on this modified response to generate its revision. Empirical
evaluations on diverse reasoning-intensive benchmarks reveal that in-place
feedback achieves better performance than conventional multi-turn feedback
while using 79.1% fewer tokens. Complementary analyses on controlled
environments further demonstrate that in-place feedback resolves a core
limitation of multi-turn feedback: models often fail to apply feedback
precisely to erroneous parts of the response, leaving errors uncorrected and
sometimes introducing new mistakes into previously correct content. These
findings suggest that in-place feedback offers a more natural and effective
mechanism for guiding LLMs in reasoning-intensive tasks.