Aprendizado Retrospectivo a partir de Interações

Resumo

As interações de várias etapas entre grandes modelos de linguagem (LLMs) e usuários naturalmente incluem sinais de feedback implícitos. Se um LLM responde de forma inesperada a uma instrução, é provável que o usuário sinalize isso reformulando o pedido, expressando frustração ou mudando para uma tarefa alternativa. Tais sinais são independentes da tarefa e ocupam um espaço de linguagem relativamente restrito, permitindo que o LLM os identifique mesmo se falhar na tarefa real. Isso cria uma oportunidade para aprender continuamente com as interações sem anotações adicionais. Apresentamos o ReSpect, um método para aprender com tais sinais em interações passadas por meio de retrospectiva. Implementamos o ReSpect em um novo cenário de interação multimodal, onde humanos instruem um LLM a resolver uma tarefa de raciocínio abstrato com um espaço de solução combinatório. Através de milhares de interações com humanos, mostramos como o ReSpect melhora gradualmente a taxa de conclusão da tarefa de 31% para 82%, tudo sem nenhuma anotação externa.

English

Multi-turn interactions between large language models (LLMs) and users naturally include implicit feedback signals. If an LLM responds in an unexpected way to an instruction, the user is likely to signal it by rephrasing the request, expressing frustration, or pivoting to an alternative task. Such signals are task-independent and occupy a relatively constrained subspace of language, allowing the LLM to identify them even if it fails on the actual task. This creates an avenue for continually learning from interactions without additional annotations. We introduce ReSpect, a method to learn from such signals in past interactions via retrospection. We deploy ReSpect in a new multimodal interaction scenario, where humans instruct an LLM to solve an abstract reasoning task with a combinatorial solution space. Through thousands of interactions with humans, we show how ReSpect gradually improves task completion rate from 31% to 82%, all without any external annotation.

Aprendizado Retrospectivo a partir de Interações

Retrospective Learning from Interactions

Resumo

Support