ICAL: Continueel Leren van Multimodale Agents door Trajectorieën om te zetten in Actiegerichte Inzichten
ICAL: Continual Learning of Multimodal Agents by Transforming Trajectories into Actionable Insights
June 20, 2024
Auteurs: Gabriel Sarch, Lawrence Jang, Michael J. Tarr, William W. Cohen, Kenneth Marino, Katerina Fragkiadaki
cs.AI
Samenvatting
Grootschalige generatieve taal- en visueel-taalmodelen (LLM's en VLM's) blinken uit in few-shot in-context leren voor besluitvorming en het opvolgen van instructies. Ze vereisen echter hoogwaardige voorbeelden die in hun contextvenster worden opgenomen. In dit werk stellen we de vraag: Kunnen LLM's en VLM's hun eigen promptvoorbeelden genereren uit generieke, suboptimale demonstraties? We introduceren In-Context Abstractie Leren (ICAL), een methode die een geheugen opbouwt van multimodale ervaringsinzichten uit suboptimale demonstraties en menselijke feedback. Gegeven een rommelige demonstratie in een nieuw domein, abstraheren VLM's de trajecten naar een algemeen programma door inefficiënte acties te corrigeren en cognitieve abstracties te annoteren: taakrelaties, objectstatuswijzigingen, temporele subdoelen en taakinterpretaties. Deze abstracties worden interactief verfijnd en aangepast via menselijke feedback terwijl de agent probeert het traject uit te voeren in een vergelijkbare omgeving. De resulterende abstracties, wanneer gebruikt als voorbeelden in de prompt, verbeteren de besluitvorming aanzienlijk in retrieval-augmented LLM- en VLM-agenten. Onze ICAL-agent overtreft de state-of-the-art in dialooggestuurd instructieopvolgen in TEACh, multimodale webagenten in VisualWebArena, en actieanticipering in Ego4D. In TEACh behalen we een verbetering van 12,6% in doelgerichte succesratio. In VisualWebArena verbetert onze taaksuccesratio van 14,3% naar 22,7% ten opzichte van de SOTA. In Ego4D-actievoorspelling verbeteren we ten opzichte van few-shot GPT-4V en blijven we competitief met gesuperviseerde modellen. We tonen aan dat het finetunen van onze retrieval-augmented in-context agent aanvullende verbeteringen oplevert. Onze aanpak vermindert de afhankelijkheid van door experts gemaakte voorbeelden aanzienlijk en presteert consistent beter dan in-context leren uit actieplannen die dergelijke inzichten missen.
English
Large-scale generative language and vision-language models (LLMs and VLMs)
excel in few-shot in-context learning for decision making and instruction
following. However, they require high-quality exemplar demonstrations to be
included in their context window. In this work, we ask: Can LLMs and VLMs
generate their own prompt examples from generic, sub-optimal demonstrations? We
propose In-Context Abstraction Learning (ICAL), a method that builds a memory
of multimodal experience insights from sub-optimal demonstrations and human
feedback. Given a noisy demonstration in a new domain, VLMs abstract the
trajectory into a general program by fixing inefficient actions and annotating
cognitive abstractions: task relationships, object state changes, temporal
subgoals, and task construals. These abstractions are refined and adapted
interactively through human feedback while the agent attempts to execute the
trajectory in a similar environment. The resulting abstractions, when used as
exemplars in the prompt, significantly improve decision-making in
retrieval-augmented LLM and VLM agents. Our ICAL agent surpasses the
state-of-the-art in dialogue-based instruction following in TEACh, multimodal
web agents in VisualWebArena, and action anticipation in Ego4D. In TEACh, we
achieve a 12.6% improvement in goal-condition success. In VisualWebArena, our
task success rate improves over the SOTA from 14.3% to 22.7%. In Ego4D action
forecasting, we improve over few-shot GPT-4V and remain competitive with
supervised models. We show finetuning our retrieval-augmented in-context agent
yields additional improvements. Our approach significantly reduces reliance on
expert-crafted examples and consistently outperforms in-context learning from
action plans that lack such insights.