ICAL: Aprendizaje Continuo de Agentes Multimodales mediante la Transformación de Trayectorias en Conocimiento Accionable
ICAL: Continual Learning of Multimodal Agents by Transforming Trajectories into Actionable Insights
June 20, 2024
Autores: Gabriel Sarch, Lawrence Jang, Michael J. Tarr, William W. Cohen, Kenneth Marino, Katerina Fragkiadaki
cs.AI
Resumen
Los modelos generativos de lenguaje y visión-lenguaje a gran escala (LLMs y VLMs) sobresalen en el aprendizaje en contexto con pocos ejemplos para la toma de decisiones y el seguimiento de instrucciones. Sin embargo, requieren demostraciones de alta calidad que se incluyan en su ventana de contexto. En este trabajo, nos preguntamos: ¿Pueden los LLMs y VLMs generar sus propios ejemplos de prompts a partir de demostraciones genéricas y subóptimas? Proponemos el Aprendizaje de Abstracción en Contexto (ICAL, por sus siglas en inglés), un método que construye una memoria de insights de experiencia multimodal a partir de demostraciones subóptimas y retroalimentación humana. Dada una demostración ruidosa en un nuevo dominio, los VLMs abstraen la trayectoria en un programa general corrigiendo acciones ineficientes y anotando abstracciones cognitivas: relaciones de tareas, cambios de estado de objetos, subobjetivos temporales y construcciones de tareas. Estas abstracciones se refinan y adaptan de manera interactiva mediante retroalimentación humana mientras el agente intenta ejecutar la trayectoria en un entorno similar. Las abstracciones resultantes, cuando se utilizan como ejemplos en el prompt, mejoran significativamente la toma de decisiones en agentes LLM y VLM aumentados con recuperación. Nuestro agente ICAL supera el estado del arte en el seguimiento de instrucciones basado en diálogo en TEACh, agentes web multimodales en VisualWebArena y anticipación de acciones en Ego4D. En TEACh, logramos una mejora del 12.6% en el éxito condicionado al objetivo. En VisualWebArena, nuestra tasa de éxito en tareas mejora sobre el estado del arte, pasando del 14.3% al 22.7%. En la previsión de acciones de Ego4D, mejoramos sobre GPT-4V con pocos ejemplos y mantenemos la competitividad con modelos supervisados. Mostramos que el ajuste fino de nuestro agente en contexto aumentado con recuperación produce mejoras adicionales. Nuestro enfoque reduce significativamente la dependencia de ejemplos elaborados por expertos y supera consistentemente el aprendizaje en contexto a partir de planes de acción que carecen de tales insights.
English
Large-scale generative language and vision-language models (LLMs and VLMs)
excel in few-shot in-context learning for decision making and instruction
following. However, they require high-quality exemplar demonstrations to be
included in their context window. In this work, we ask: Can LLMs and VLMs
generate their own prompt examples from generic, sub-optimal demonstrations? We
propose In-Context Abstraction Learning (ICAL), a method that builds a memory
of multimodal experience insights from sub-optimal demonstrations and human
feedback. Given a noisy demonstration in a new domain, VLMs abstract the
trajectory into a general program by fixing inefficient actions and annotating
cognitive abstractions: task relationships, object state changes, temporal
subgoals, and task construals. These abstractions are refined and adapted
interactively through human feedback while the agent attempts to execute the
trajectory in a similar environment. The resulting abstractions, when used as
exemplars in the prompt, significantly improve decision-making in
retrieval-augmented LLM and VLM agents. Our ICAL agent surpasses the
state-of-the-art in dialogue-based instruction following in TEACh, multimodal
web agents in VisualWebArena, and action anticipation in Ego4D. In TEACh, we
achieve a 12.6% improvement in goal-condition success. In VisualWebArena, our
task success rate improves over the SOTA from 14.3% to 22.7%. In Ego4D action
forecasting, we improve over few-shot GPT-4V and remain competitive with
supervised models. We show finetuning our retrieval-augmented in-context agent
yields additional improvements. Our approach significantly reduces reliance on
expert-crafted examples and consistently outperforms in-context learning from
action plans that lack such insights.Summary
AI-Generated Summary