ICAL : Apprentissage continu des agents multimodaux par la transformation des trajectoires en informations exploitables
ICAL: Continual Learning of Multimodal Agents by Transforming Trajectories into Actionable Insights
June 20, 2024
Auteurs: Gabriel Sarch, Lawrence Jang, Michael J. Tarr, William W. Cohen, Kenneth Marino, Katerina Fragkiadaki
cs.AI
Résumé
Les modèles génératifs à grande échelle pour le langage et la vision-langage (LLMs et VLMs) excellent dans l'apprentissage en contexte avec peu d'exemples pour la prise de décision et le suivi d'instructions. Cependant, ils nécessitent des démonstrations exemplaires de haute qualité à inclure dans leur fenêtre contextuelle. Dans ce travail, nous posons la question suivante : Les LLMs et VLMs peuvent-ils générer leurs propres exemples de prompts à partir de démonstrations génériques et sous-optimales ? Nous proposons l'Apprentissage par Abstraction en Contexte (ICAL), une méthode qui construit une mémoire d'expériences multimodales à partir de démonstrations sous-optimales et de retours humains. Face à une démonstration bruyante dans un nouveau domaine, les VLMs abstraient la trajectoire en un programme général en corrigeant les actions inefficaces et en annotant des abstractions cognitives : relations entre tâches, changements d'état des objets, sous-objectifs temporels et interprétations des tâches. Ces abstractions sont affinées et adaptées de manière interactive grâce aux retours humains tandis que l'agent tente d'exécuter la trajectoire dans un environnement similaire. Les abstractions résultantes, utilisées comme exemples dans le prompt, améliorent significativement la prise de décision dans les agents LLM et VLM augmentés par la récupération. Notre agent ICAL surpasse l'état de l'art dans le suivi d'instructions basé sur le dialogue dans TEACh, les agents web multimodaux dans VisualWebArena, et l'anticipation d'actions dans Ego4D. Dans TEACh, nous obtenons une amélioration de 12,6 % dans le succès conditionné par l'objectif. Dans VisualWebArena, notre taux de réussite des tâches passe de 14,3 % à 22,7 % par rapport à l'état de l'art. Dans la prévision d'actions Ego4D, nous surpassons GPT-4V avec peu d'exemples et restons compétitifs avec les modèles supervisés. Nous montrons que le fine-tuning de notre agent en contexte augmenté par la récupération apporte des améliorations supplémentaires. Notre approche réduit significativement la dépendance aux exemples conçus par des experts et surpasse systématiquement l'apprentissage en contexte à partir de plans d'actions dépourvus de telles insights.
English
Large-scale generative language and vision-language models (LLMs and VLMs)
excel in few-shot in-context learning for decision making and instruction
following. However, they require high-quality exemplar demonstrations to be
included in their context window. In this work, we ask: Can LLMs and VLMs
generate their own prompt examples from generic, sub-optimal demonstrations? We
propose In-Context Abstraction Learning (ICAL), a method that builds a memory
of multimodal experience insights from sub-optimal demonstrations and human
feedback. Given a noisy demonstration in a new domain, VLMs abstract the
trajectory into a general program by fixing inefficient actions and annotating
cognitive abstractions: task relationships, object state changes, temporal
subgoals, and task construals. These abstractions are refined and adapted
interactively through human feedback while the agent attempts to execute the
trajectory in a similar environment. The resulting abstractions, when used as
exemplars in the prompt, significantly improve decision-making in
retrieval-augmented LLM and VLM agents. Our ICAL agent surpasses the
state-of-the-art in dialogue-based instruction following in TEACh, multimodal
web agents in VisualWebArena, and action anticipation in Ego4D. In TEACh, we
achieve a 12.6% improvement in goal-condition success. In VisualWebArena, our
task success rate improves over the SOTA from 14.3% to 22.7%. In Ego4D action
forecasting, we improve over few-shot GPT-4V and remain competitive with
supervised models. We show finetuning our retrieval-augmented in-context agent
yields additional improvements. Our approach significantly reduces reliance on
expert-crafted examples and consistently outperforms in-context learning from
action plans that lack such insights.Summary
AI-Generated Summary