ChatPaper.aiChatPaper

Feedback In-Loco: Um Novo Paradigma para Orientar LLMs no Raciocínio em Múltiplas Etapas

In-Place Feedback: A New Paradigm for Guiding LLMs in Multi-Turn Reasoning

October 1, 2025
Autores: Youngbin Choi, Minjong Lee, Saemi Moon, Seunghyuk Cho, Chaehyeon Chung, MoonJeong Park, Dongwoo Kim
cs.AI

Resumo

Modelos de linguagem de grande escala (LLMs) estão sendo cada vez mais estudados no contexto de raciocínio multi-turn, onde os modelos refinam iterativamente suas saídas com base em feedback fornecido pelo usuário. Tais configurações são cruciais para tarefas que exigem raciocínio complexo, mas os paradigmas de feedback existentes frequentemente dependem da emissão de novas mensagens. Os LLMs têm dificuldade em integrar essas mensagens de forma confiável, resultando em melhorias inconsistentes. Neste trabalho, introduzimos o feedback in-place, um novo paradigma de interação no qual os usuários editam diretamente a resposta anterior do LLM, e o modelo condiciona sua revisão com base nessa resposta modificada. Avaliações empíricas em diversos benchmarks intensivos em raciocínio revelam que o feedback in-place alcança um desempenho superior ao feedback multi-turn convencional, utilizando 79,1% menos tokens. Análises complementares em ambientes controlados demonstram ainda que o feedback in-place resolve uma limitação central do feedback multi-turn: os modelos frequentemente falham em aplicar o feedback precisamente às partes errôneas da resposta, deixando erros sem correção e, às vezes, introduzindo novos erros em conteúdos previamente corretos. Esses achados sugerem que o feedback in-place oferece um mecanismo mais natural e eficaz para orientar LLMs em tarefas intensivas em raciocínio.
English
Large language models (LLMs) are increasingly studied in the context of multi-turn reasoning, where models iteratively refine their outputs based on user-provided feedback. Such settings are crucial for tasks that require complex reasoning, yet existing feedback paradigms often rely on issuing new messages. LLMs struggle to integrate these reliably, leading to inconsistent improvements. In this work, we introduce in-place feedback, a novel interaction paradigm in which users directly edit an LLM's previous response, and the model conditions on this modified response to generate its revision. Empirical evaluations on diverse reasoning-intensive benchmarks reveal that in-place feedback achieves better performance than conventional multi-turn feedback while using 79.1% fewer tokens. Complementary analyses on controlled environments further demonstrate that in-place feedback resolves a core limitation of multi-turn feedback: models often fail to apply feedback precisely to erroneous parts of the response, leaving errors uncorrected and sometimes introducing new mistakes into previously correct content. These findings suggest that in-place feedback offers a more natural and effective mechanism for guiding LLMs in reasoning-intensive tasks.
PDF21October 2, 2025