ICAL: マルチモーダルエージェントの継続的学習を実現するための 軌跡から実践可能な知見への変換
ICAL: Continual Learning of Multimodal Agents by Transforming Trajectories into Actionable Insights
June 20, 2024
著者: Gabriel Sarch, Lawrence Jang, Michael J. Tarr, William W. Cohen, Kenneth Marino, Katerina Fragkiadaki
cs.AI
要旨
大規模な生成言語モデル(LLM)および視覚言語モデル(VLM)は、意思決定や指示追従におけるfew-shot in-context learningにおいて優れた性能を発揮します。しかし、これらのモデルは、高品質な例示をコンテキストウィンドウに含める必要があります。本研究では、LLMやVLMが、一般的で最適とは言えないデモンストレーションから自らプロンプト例を生成できるかどうかを問います。我々は、In-Context Abstraction Learning(ICAL)という手法を提案します。この手法は、最適とは言えないデモンストレーションと人間のフィードバックから、マルチモーダルな経験の洞察を記憶として構築します。新しいドメインにおけるノイズの多いデモンストレーションが与えられた場合、VLMは、非効率的なアクションを修正し、認知的抽象化(タスク間の関係、オブジェクトの状態変化、時間的なサブゴール、タスクの解釈)を注釈することで、その軌跡を一般的なプログラムに抽象化します。これらの抽象化は、エージェントが類似した環境で軌跡を実行しようとする間に、人間のフィードバックを通じてインタラクティブに洗練され、適応されます。結果として得られた抽象化をプロンプトの例示として使用すると、検索拡張型LLMおよびVLMエージェントの意思決定が大幅に改善されます。我々のICALエージェントは、TEAChにおける対話型指示追従、VisualWebArenaにおけるマルチモーダルWebエージェント、Ego4Dにおけるアクション予測において、最先端の性能を上回りました。TEAChでは、ゴール条件達成率が12.6%向上しました。VisualWebArenaでは、タスク成功率が14.3%から22.7%に改善されました。Ego4Dのアクション予測では、few-shot GPT-4Vを上回り、教師ありモデルと競争力のある性能を維持しました。我々は、検索拡張型in-contextエージェントをファインチューニングすることで、さらなる改善が得られることを示しました。我々のアプローチは、専門家が作成した例への依存を大幅に削減し、そのような洞察を欠いたアクションプランからのin-context learningを一貫して上回ります。
English
Large-scale generative language and vision-language models (LLMs and VLMs)
excel in few-shot in-context learning for decision making and instruction
following. However, they require high-quality exemplar demonstrations to be
included in their context window. In this work, we ask: Can LLMs and VLMs
generate their own prompt examples from generic, sub-optimal demonstrations? We
propose In-Context Abstraction Learning (ICAL), a method that builds a memory
of multimodal experience insights from sub-optimal demonstrations and human
feedback. Given a noisy demonstration in a new domain, VLMs abstract the
trajectory into a general program by fixing inefficient actions and annotating
cognitive abstractions: task relationships, object state changes, temporal
subgoals, and task construals. These abstractions are refined and adapted
interactively through human feedback while the agent attempts to execute the
trajectory in a similar environment. The resulting abstractions, when used as
exemplars in the prompt, significantly improve decision-making in
retrieval-augmented LLM and VLM agents. Our ICAL agent surpasses the
state-of-the-art in dialogue-based instruction following in TEACh, multimodal
web agents in VisualWebArena, and action anticipation in Ego4D. In TEACh, we
achieve a 12.6% improvement in goal-condition success. In VisualWebArena, our
task success rate improves over the SOTA from 14.3% to 22.7%. In Ego4D action
forecasting, we improve over few-shot GPT-4V and remain competitive with
supervised models. We show finetuning our retrieval-augmented in-context agent
yields additional improvements. Our approach significantly reduces reliance on
expert-crafted examples and consistently outperforms in-context learning from
action plans that lack such insights.Summary
AI-Generated Summary