ChatPaper.aiChatPaper

ICAL: Aprendizado Contínuo de Agentes Multimodais por Meio da Transformação de Trajetórias em Percepções Acionáveis

ICAL: Continual Learning of Multimodal Agents by Transforming Trajectories into Actionable Insights

June 20, 2024
Autores: Gabriel Sarch, Lawrence Jang, Michael J. Tarr, William W. Cohen, Kenneth Marino, Katerina Fragkiadaki
cs.AI

Resumo

Modelos de linguagem generativos em larga escala e modelos de visão-linguagem (LLMs e VLMs) destacam-se no aprendizado em contexto com poucas amostras para tomada de decisão e instrução subsequente. No entanto, eles necessitam de demonstrações exemplares de alta qualidade para serem incluídas em sua janela de contexto. Neste trabalho, questionamos: Será que os LLMs e VLMs podem gerar seus próprios exemplos de prompt a partir de demonstrações genéricas e subótimas? Propomos o Aprendizado de Abstração em Contexto (ICAL), um método que constrói uma memória de insights de experiência multimodal a partir de demonstrações subótimas e feedback humano. Dada uma demonstração ruidosa em um novo domínio, os VLMs abstraem a trajetória em um programa geral corrigindo ações ineficientes e anotando abstrações cognitivas: relações de tarefas, mudanças de estado de objetos, submetas temporais e interpretações de tarefas. Essas abstrações são refinadas e adaptadas de forma interativa por meio do feedback humano enquanto o agente tenta executar a trajetória em um ambiente semelhante. As abstrações resultantes, quando usadas como exemplares no prompt, melhoram significativamente a tomada de decisão em agentes LLM e VLM com recuperação aprimorada. Nosso agente ICAL supera o estado da arte no seguimento de instruções baseado em diálogo no TEACh, em agentes web multimodais no VisualWebArena e na antecipação de ações no Ego4D. No TEACh, alcançamos uma melhoria de 12,6% na taxa de sucesso condicionada ao objetivo. No VisualWebArena, nossa taxa de sucesso na tarefa melhora de 14,3% para 22,7% em relação ao estado da arte. Na previsão de ações do Ego4D, superamos o GPT-4V de poucas amostras e permanecemos competitivos com modelos supervisionados. Mostramos que o ajuste fino de nosso agente em contexto com recuperação aprimorada gera melhorias adicionais. Nossa abordagem reduz significativamente a dependência de exemplos criados por especialistas e supera consistentemente o aprendizado em contexto a partir de planos de ação que carecem desses insights.
English
Large-scale generative language and vision-language models (LLMs and VLMs) excel in few-shot in-context learning for decision making and instruction following. However, they require high-quality exemplar demonstrations to be included in their context window. In this work, we ask: Can LLMs and VLMs generate their own prompt examples from generic, sub-optimal demonstrations? We propose In-Context Abstraction Learning (ICAL), a method that builds a memory of multimodal experience insights from sub-optimal demonstrations and human feedback. Given a noisy demonstration in a new domain, VLMs abstract the trajectory into a general program by fixing inefficient actions and annotating cognitive abstractions: task relationships, object state changes, temporal subgoals, and task construals. These abstractions are refined and adapted interactively through human feedback while the agent attempts to execute the trajectory in a similar environment. The resulting abstractions, when used as exemplars in the prompt, significantly improve decision-making in retrieval-augmented LLM and VLM agents. Our ICAL agent surpasses the state-of-the-art in dialogue-based instruction following in TEACh, multimodal web agents in VisualWebArena, and action anticipation in Ego4D. In TEACh, we achieve a 12.6% improvement in goal-condition success. In VisualWebArena, our task success rate improves over the SOTA from 14.3% to 22.7%. In Ego4D action forecasting, we improve over few-shot GPT-4V and remain competitive with supervised models. We show finetuning our retrieval-augmented in-context agent yields additional improvements. Our approach significantly reduces reliance on expert-crafted examples and consistently outperforms in-context learning from action plans that lack such insights.
PDF52November 29, 2024