ICAL: Apprendimento Continuo di Agenti Multimodali attraverso la Trasformazione di Traiettorie in Informazioni Azionabili
ICAL: Continual Learning of Multimodal Agents by Transforming Trajectories into Actionable Insights
June 20, 2024
Autori: Gabriel Sarch, Lawrence Jang, Michael J. Tarr, William W. Cohen, Kenneth Marino, Katerina Fragkiadaki
cs.AI
Abstract
I modelli generativi su larga scala per il linguaggio e il linguaggio visivo (LLM e VLM) eccellono nell'apprendimento in-context con pochi esempi per il processo decisionale e il seguimento di istruzioni. Tuttavia, richiedono dimostrazioni di alta qualità da includere nella loro finestra di contesto. In questo lavoro, ci chiediamo: gli LLM e i VLM possono generare i propri esempi di prompt a partire da dimostrazioni generiche e sub-ottimali? Proponiamo l'In-Context Abstraction Learning (ICAL), un metodo che costruisce una memoria di intuizioni esperienziali multimodali a partire da dimostrazioni sub-ottimali e feedback umano. Data una dimostrazione rumorosa in un nuovo dominio, i VLM astraggono la traiettoria in un programma generale correggendo azioni inefficienti e annotando astrazioni cognitive: relazioni tra compiti, cambiamenti di stato degli oggetti, sotto-obiettivi temporali e interpretazioni dei compiti. Queste astrazioni vengono affinate e adattate in modo interattivo attraverso il feedback umano mentre l'agente tenta di eseguire la traiettoria in un ambiente simile. Le astrazioni risultanti, quando utilizzate come esempi nel prompt, migliorano significativamente il processo decisionale negli agenti LLM e VLM potenziati dal retrieval. Il nostro agente ICAL supera lo stato dell'arte nel seguimento di istruzioni basato sul dialogo in TEACh, negli agenti web multimodali in VisualWebArena e nell'anticipazione delle azioni in Ego4D. In TEACh, otteniamo un miglioramento del 12,6% nel successo condizionato agli obiettivi. In VisualWebArena, il nostro tasso di successo nei compiti migliora rispetto allo stato dell'arte dal 14,3% al 22,7%. Nella previsione delle azioni in Ego4D, miglioriamo rispetto al GPT-4V con pochi esempi e rimaniamo competitivi con i modelli supervisionati. Mostriamo che il fine-tuning del nostro agente in-context potenziato dal retrieval produce ulteriori miglioramenti. Il nostro approccio riduce significativamente la dipendenza da esempi creati da esperti e supera costantemente l'apprendimento in-context da piani d'azione che mancano di tali intuizioni.
English
Large-scale generative language and vision-language models (LLMs and VLMs)
excel in few-shot in-context learning for decision making and instruction
following. However, they require high-quality exemplar demonstrations to be
included in their context window. In this work, we ask: Can LLMs and VLMs
generate their own prompt examples from generic, sub-optimal demonstrations? We
propose In-Context Abstraction Learning (ICAL), a method that builds a memory
of multimodal experience insights from sub-optimal demonstrations and human
feedback. Given a noisy demonstration in a new domain, VLMs abstract the
trajectory into a general program by fixing inefficient actions and annotating
cognitive abstractions: task relationships, object state changes, temporal
subgoals, and task construals. These abstractions are refined and adapted
interactively through human feedback while the agent attempts to execute the
trajectory in a similar environment. The resulting abstractions, when used as
exemplars in the prompt, significantly improve decision-making in
retrieval-augmented LLM and VLM agents. Our ICAL agent surpasses the
state-of-the-art in dialogue-based instruction following in TEACh, multimodal
web agents in VisualWebArena, and action anticipation in Ego4D. In TEACh, we
achieve a 12.6% improvement in goal-condition success. In VisualWebArena, our
task success rate improves over the SOTA from 14.3% to 22.7%. In Ego4D action
forecasting, we improve over few-shot GPT-4V and remain competitive with
supervised models. We show finetuning our retrieval-augmented in-context agent
yields additional improvements. Our approach significantly reduces reliance on
expert-crafted examples and consistently outperforms in-context learning from
action plans that lack such insights.