ChatPaper.aiChatPaper

In-Place-Feedback: Ein neues Paradigma zur Steuerung von LLMs in mehrstufigen Denkprozessen

In-Place Feedback: A New Paradigm for Guiding LLMs in Multi-Turn Reasoning

October 1, 2025
papers.authors: Youngbin Choi, Minjong Lee, Saemi Moon, Seunghyuk Cho, Chaehyeon Chung, MoonJeong Park, Dongwoo Kim
cs.AI

papers.abstract

Große Sprachmodelle (LLMs) werden zunehmend im Kontext von Mehrschritt-Argumentation untersucht, bei der Modelle ihre Ausgaben iterativ auf der Grundlage von Benutzerfeedback verfeinern. Solche Szenarien sind entscheidend für Aufgaben, die komplexe Argumentation erfordern, doch bestehende Feedback-Paradigmen beruhen oft darauf, neue Nachrichten zu senden. LLMs haben Schwierigkeiten, diese zuverlässig zu integrieren, was zu inkonsistenten Verbesserungen führt. In dieser Arbeit führen wir In-Place-Feedback ein, ein neuartiges Interaktionsparadigma, bei dem Benutzer die vorherige Antwort eines LLMs direkt bearbeiten und das Modell auf dieser modifizierten Antwort basiert, um seine Überarbeitung zu generieren. Empirische Auswertungen auf diversen argumentationsintensiven Benchmarks zeigen, dass In-Place-Feedback eine bessere Leistung erzielt als konventionelles Mehrschritt-Feedback, während 79,1 % weniger Tokens verwendet werden. Ergänzende Analysen in kontrollierten Umgebungen demonstrieren weiterhin, dass In-Place-Feedback eine zentrale Einschränkung von Mehrschritt-Feedback behebt: Modelle scheitern oft daran, Feedback präzise auf fehlerhafte Teile der Antwort anzuwenden, wodurch Fehler unkorrigiert bleiben und manchmal neue Fehler in zuvor korrekte Inhalte eingeführt werden. Diese Ergebnisse legen nahe, dass In-Place-Feedback einen natürlicheren und effektiveren Mechanismus zur Steuerung von LLMs in argumentationsintensiven Aufgaben bietet.
English
Large language models (LLMs) are increasingly studied in the context of multi-turn reasoning, where models iteratively refine their outputs based on user-provided feedback. Such settings are crucial for tasks that require complex reasoning, yet existing feedback paradigms often rely on issuing new messages. LLMs struggle to integrate these reliably, leading to inconsistent improvements. In this work, we introduce in-place feedback, a novel interaction paradigm in which users directly edit an LLM's previous response, and the model conditions on this modified response to generate its revision. Empirical evaluations on diverse reasoning-intensive benchmarks reveal that in-place feedback achieves better performance than conventional multi-turn feedback while using 79.1% fewer tokens. Complementary analyses on controlled environments further demonstrate that in-place feedback resolves a core limitation of multi-turn feedback: models often fail to apply feedback precisely to erroneous parts of the response, leaving errors uncorrected and sometimes introducing new mistakes into previously correct content. These findings suggest that in-place feedback offers a more natural and effective mechanism for guiding LLMs in reasoning-intensive tasks.
PDF21October 2, 2025