ChatPaper.aiChatPaper

In-Place Feedback: Een Nieuw Paradigma voor het Begeleiden van LLM's in Redeneren over Meerdere Stappen

In-Place Feedback: A New Paradigm for Guiding LLMs in Multi-Turn Reasoning

October 1, 2025
Auteurs: Youngbin Choi, Minjong Lee, Saemi Moon, Seunghyuk Cho, Chaehyeon Chung, MoonJeong Park, Dongwoo Kim
cs.AI

Samenvatting

Grote taalmodellen (LLMs) worden steeds vaker bestudeerd in de context van meerfasen redenering, waarbij modellen hun uitvoer iteratief verfijnen op basis van door gebruikers verstrekte feedback. Dergelijke situaties zijn cruciaal voor taken die complexe redenering vereisen, maar bestaande feedbackparadigma's zijn vaak gebaseerd op het versturen van nieuwe berichten. LLMs hebben moeite om deze betrouwbaar te integreren, wat leidt tot inconsistente verbeteringen. In dit werk introduceren we in-place feedback, een nieuw interactieparadigma waarbij gebruikers een eerdere reactie van een LLM direct bewerken, en het model zich baseert op deze aangepaste reactie om zijn revisie te genereren. Empirische evaluaties op diverse redeneringsintensieve benchmarks laten zien dat in-place feedback betere prestaties bereikt dan conventionele meerfasen feedback, terwijl het 79,1% minder tokens gebruikt. Complementaire analyses in gecontroleerde omgevingen tonen verder aan dat in-place feedback een kernbeperking van meerfasen feedback oplost: modellen slagen er vaak niet in om feedback precies toe te passen op foutieve delen van de reactie, waardoor fouten ongecorrigeerd blijven en soms nieuwe fouten worden geïntroduceerd in eerder correcte inhoud. Deze bevindingen suggereren dat in-place feedback een natuurlijker en effectiever mechanisme biedt voor het begeleiden van LLMs in redeneringsintensieve taken.
English
Large language models (LLMs) are increasingly studied in the context of multi-turn reasoning, where models iteratively refine their outputs based on user-provided feedback. Such settings are crucial for tasks that require complex reasoning, yet existing feedback paradigms often rely on issuing new messages. LLMs struggle to integrate these reliably, leading to inconsistent improvements. In this work, we introduce in-place feedback, a novel interaction paradigm in which users directly edit an LLM's previous response, and the model conditions on this modified response to generate its revision. Empirical evaluations on diverse reasoning-intensive benchmarks reveal that in-place feedback achieves better performance than conventional multi-turn feedback while using 79.1% fewer tokens. Complementary analyses on controlled environments further demonstrate that in-place feedback resolves a core limitation of multi-turn feedback: models often fail to apply feedback precisely to erroneous parts of the response, leaving errors uncorrected and sometimes introducing new mistakes into previously correct content. These findings suggest that in-place feedback offers a more natural and effective mechanism for guiding LLMs in reasoning-intensive tasks.
PDF21October 2, 2025