Aprendizaje retrospectivo a partir de interacciones
Retrospective Learning from Interactions
October 17, 2024
Autores: Zizhao Chen, Mustafa Omer Gul, Yiwei Chen, Gloria Geng, Anne Wu, Yoav Artzi
cs.AI
Resumen
Las interacciones de múltiples turnos entre modelos de lenguaje grandes (LLMs) y usuarios incluyen naturalmente señales de retroalimentación implícitas. Si un LLM responde de manera inesperada a una instrucción, es probable que el usuario lo señale reformulando la solicitud, expresando frustración o cambiando a una tarea alternativa. Estas señales son independientes de la tarea y ocupan un subespacio relativamente restringido del lenguaje, lo que permite al LLM identificarlas incluso si falla en la tarea real. Esto crea una vía para aprender continuamente de las interacciones sin anotaciones adicionales. Presentamos ReSpect, un método para aprender de tales señales en interacciones pasadas a través de la retrospección. Implementamos ReSpect en un nuevo escenario de interacción multimodal, donde los humanos instruyen a un LLM para resolver una tarea de razonamiento abstracto con un espacio de soluciones combinatorias. A través de miles de interacciones con humanos, mostramos cómo ReSpect mejora gradualmente la tasa de finalización de la tarea del 31% al 82%, todo sin ninguna anotación externa.
English
Multi-turn interactions between large language models (LLMs) and users
naturally include implicit feedback signals. If an LLM responds in an
unexpected way to an instruction, the user is likely to signal it by rephrasing
the request, expressing frustration, or pivoting to an alternative task. Such
signals are task-independent and occupy a relatively constrained subspace of
language, allowing the LLM to identify them even if it fails on the actual
task. This creates an avenue for continually learning from interactions without
additional annotations. We introduce ReSpect, a method to learn from such
signals in past interactions via retrospection. We deploy ReSpect in a new
multimodal interaction scenario, where humans instruct an LLM to solve an
abstract reasoning task with a combinatorial solution space. Through thousands
of interactions with humans, we show how ReSpect gradually improves task
completion rate from 31% to 82%, all without any external annotation.Summary
AI-Generated Summary