Kontinuierliches Lernen von multimodalen Agenten durch die Umwandlung von Trajektorien in handlungsrelevante Erkenntnisse.
ICAL: Continual Learning of Multimodal Agents by Transforming Trajectories into Actionable Insights
June 20, 2024
Autoren: Gabriel Sarch, Lawrence Jang, Michael J. Tarr, William W. Cohen, Kenneth Marino, Katerina Fragkiadaki
cs.AI
Zusammenfassung
Groß angelegte generative Sprach- und Vision-Sprachmodelle (LLMs und VLMs) zeichnen sich durch ihre Fähigkeit aus, mit wenigen Beispielen im Kontext zu lernen, um Entscheidungsfindung und Anweisungen zu verbessern. Allerdings benötigen sie hochwertige Demonstrationsbeispiele, die in ihr Kontextfenster aufgenommen werden sollen. In dieser Arbeit stellen wir die Frage: Können LLMs und VLMs ihre eigenen Beispielsätze aus generischen, suboptimalen Demonstrationen generieren? Wir schlagen In-Context Abstraction Learning (ICAL) vor, eine Methode, die aus suboptimalen Demonstrationen und menschlichem Feedback Erkenntnisse aus multimodaler Erfahrung aufbaut. Bei einer rauschenden Demonstration in einem neuen Bereich abstrahieren VLMs die Trajektorie in ein allgemeines Programm, indem sie ineffiziente Aktionen beheben und kognitive Abstraktionen annotieren: Aufgabenbeziehungen, Objektzustandsänderungen, zeitliche Zwischenziele und Aufgabeninterpretationen. Diese Abstraktionen werden interaktiv durch menschliches Feedback verfeinert und angepasst, während der Agent versucht, die Trajektorie in einer ähnlichen Umgebung auszuführen. Die resultierenden Abstraktionen verbessern signifikant die Entscheidungsfindung bei abrufgestützten LLM- und VLM-Agenten, wenn sie als Beispiele im Prompt verwendet werden. Unser ICAL-Agent übertrifft den Stand der Technik in dialogbasierten Anweisungen in TEACh, multimodalen Webagenten in VisualWebArena und Aktionsvorhersagen in Ego4D. In TEACh erzielen wir eine Verbesserung des Zielzustandserfolgs um 12,6%. In VisualWebArena verbessert sich unsere Erfolgsrate bei Aufgaben gegenüber dem Stand der Technik von 14,3% auf 22,7%. Bei der Aktionsvorhersage in Ego4D verbessern wir uns gegenüber dem Few-Shot GPT-4V und bleiben wettbewerbsfähig mit überwachten Modellen. Wir zeigen, dass das Feintuning unseres abrufgestützten In-Context-Agenten zusätzliche Verbesserungen bringt. Unser Ansatz reduziert signifikant die Abhängigkeit von expertengefertigten Beispielen und übertrifft konsistent das Lernen im Kontext von Aktionsplänen, die solche Erkenntnisse vermissen lassen.
English
Large-scale generative language and vision-language models (LLMs and VLMs)
excel in few-shot in-context learning for decision making and instruction
following. However, they require high-quality exemplar demonstrations to be
included in their context window. In this work, we ask: Can LLMs and VLMs
generate their own prompt examples from generic, sub-optimal demonstrations? We
propose In-Context Abstraction Learning (ICAL), a method that builds a memory
of multimodal experience insights from sub-optimal demonstrations and human
feedback. Given a noisy demonstration in a new domain, VLMs abstract the
trajectory into a general program by fixing inefficient actions and annotating
cognitive abstractions: task relationships, object state changes, temporal
subgoals, and task construals. These abstractions are refined and adapted
interactively through human feedback while the agent attempts to execute the
trajectory in a similar environment. The resulting abstractions, when used as
exemplars in the prompt, significantly improve decision-making in
retrieval-augmented LLM and VLM agents. Our ICAL agent surpasses the
state-of-the-art in dialogue-based instruction following in TEACh, multimodal
web agents in VisualWebArena, and action anticipation in Ego4D. In TEACh, we
achieve a 12.6% improvement in goal-condition success. In VisualWebArena, our
task success rate improves over the SOTA from 14.3% to 22.7%. In Ego4D action
forecasting, we improve over few-shot GPT-4V and remain competitive with
supervised models. We show finetuning our retrieval-augmented in-context agent
yields additional improvements. Our approach significantly reduces reliance on
expert-crafted examples and consistently outperforms in-context learning from
action plans that lack such insights.Summary
AI-Generated Summary