ChatPaper.aiChatPaper

Feedback In Situ: Un Nuovo Paradigma per Guidare i Modelli Linguistici nel Ragionamento a Più Turni

In-Place Feedback: A New Paradigm for Guiding LLMs in Multi-Turn Reasoning

October 1, 2025
Autori: Youngbin Choi, Minjong Lee, Saemi Moon, Seunghyuk Cho, Chaehyeon Chung, MoonJeong Park, Dongwoo Kim
cs.AI

Abstract

I modelli linguistici di grandi dimensioni (LLM) sono sempre più studiati nel contesto del ragionamento a più turni, in cui i modelli affinano iterativamente i loro output basandosi sul feedback fornito dall'utente. Tali contesti sono cruciali per compiti che richiedono un ragionamento complesso, ma i paradigmi di feedback esistenti spesso si basano sull'invio di nuovi messaggi. Gli LLM faticano a integrarli in modo affidabile, portando a miglioramenti inconsistenti. In questo lavoro, introduciamo il feedback in-place, un nuovo paradigma di interazione in cui gli utenti modificano direttamente la risposta precedente di un LLM, e il modello si basa su questa risposta modificata per generare la sua revisione. Valutazioni empiriche su benchmark diversificati e intensivi dal punto di vista del ragionamento rivelano che il feedback in-place ottiene prestazioni migliori rispetto al feedback multi-turn tradizionale, utilizzando il 79,1% in meno di token. Analisi complementari in ambienti controllati dimostrano ulteriormente che il feedback in-place risolve una limitazione fondamentale del feedback multi-turn: i modelli spesso non applicano il feedback in modo preciso alle parti errate della risposta, lasciando errori non corretti e talvolta introducendo nuovi errori in contenuti precedentemente corretti. Questi risultati suggeriscono che il feedback in-place offre un meccanismo più naturale ed efficace per guidare gli LLM in compiti intensivi dal punto di vista del ragionamento.
English
Large language models (LLMs) are increasingly studied in the context of multi-turn reasoning, where models iteratively refine their outputs based on user-provided feedback. Such settings are crucial for tasks that require complex reasoning, yet existing feedback paradigms often rely on issuing new messages. LLMs struggle to integrate these reliably, leading to inconsistent improvements. In this work, we introduce in-place feedback, a novel interaction paradigm in which users directly edit an LLM's previous response, and the model conditions on this modified response to generate its revision. Empirical evaluations on diverse reasoning-intensive benchmarks reveal that in-place feedback achieves better performance than conventional multi-turn feedback while using 79.1% fewer tokens. Complementary analyses on controlled environments further demonstrate that in-place feedback resolves a core limitation of multi-turn feedback: models often fail to apply feedback precisely to erroneous parts of the response, leaving errors uncorrected and sometimes introducing new mistakes into previously correct content. These findings suggest that in-place feedback offers a more natural and effective mechanism for guiding LLMs in reasoning-intensive tasks.
PDF21October 2, 2025