ChatPaper.aiChatPaper

ICAL: 실행 가능한 통찰로 궤적을 변환하여 다중모달 에이전트의 지속적 학습

ICAL: Continual Learning of Multimodal Agents by Transforming Trajectories into Actionable Insights

June 20, 2024
저자: Gabriel Sarch, Lawrence Jang, Michael J. Tarr, William W. Cohen, Kenneth Marino, Katerina Fragkiadaki
cs.AI

초록

대규모 생성 언어 모델 및 시각-언어 모델(LLM과 VLM)은 의사결정과 지시 수행을 위한 퓨샷 인컨텍스트 학습에서 뛰어난 성능을 보입니다. 그러나 이러한 모델들은 컨텍스트 윈도우에 포함될 고품질의 예시 데모를 필요로 합니다. 본 연구에서는 다음과 같은 질문을 던집니다: LLM과 VLM이 일반적이고 최적이 아닌 데모로부터 자신만의 프롬프트 예시를 생성할 수 있을까요? 우리는 최적이 아닌 데모와 인간 피드백으로부터 다중모달 경험 통찰력을 기억에 저장하는 인컨텍스트 추상화 학습(ICAL) 방법을 제안합니다. 새로운 도메인에서 노이즈가 있는 데모가 주어지면, VLM은 비효율적인 행동을 수정하고 인지적 추상화(과제 관계, 객체 상태 변화, 시간적 하위 목표, 과제 해석)를 주석 처리하여 궤적을 일반적인 프로그램으로 추상화합니다. 이러한 추상화는 에이전트가 유사한 환경에서 궤적을 실행하려고 시도하는 동안 인간 피드백을 통해 상호작용적으로 개선되고 적응됩니다. 결과적으로 생성된 추상화는 프롬프트의 예시로 사용될 때, 검색 강화된 LLM 및 VLM 에이전트의 의사결정을 크게 개선합니다. 우리의 ICAL 에이전트는 TEACh에서 대화 기반 지시 수행, VisualWebArena에서 다중모달 웹 에이전트, 그리고 Ego4D에서의 행동 예측 분야에서 최첨단 기술을 능가합니다. TEACh에서는 목표 조건 성공률이 12.6% 향상되었습니다. VisualWebArena에서는 작업 성공률이 최첨단 기술 대비 14.3%에서 22.7%로 개선되었습니다. Ego4D 행동 예측에서는 퓨샷 GPT-4V를 능가하며 지도 학습 모델과도 경쟁력을 유지했습니다. 우리는 검색 강화된 인컨텍스트 에이전트를 미세 조정함으로써 추가적인 개선을 이끌어냈습니다. 우리의 접근 방식은 전문가가 제작한 예시에 대한 의존도를 크게 줄이고, 이러한 통찰력이 없는 행동 계획을 기반으로 한 인컨텍스트 학습을 지속적으로 능가합니다.
English
Large-scale generative language and vision-language models (LLMs and VLMs) excel in few-shot in-context learning for decision making and instruction following. However, they require high-quality exemplar demonstrations to be included in their context window. In this work, we ask: Can LLMs and VLMs generate their own prompt examples from generic, sub-optimal demonstrations? We propose In-Context Abstraction Learning (ICAL), a method that builds a memory of multimodal experience insights from sub-optimal demonstrations and human feedback. Given a noisy demonstration in a new domain, VLMs abstract the trajectory into a general program by fixing inefficient actions and annotating cognitive abstractions: task relationships, object state changes, temporal subgoals, and task construals. These abstractions are refined and adapted interactively through human feedback while the agent attempts to execute the trajectory in a similar environment. The resulting abstractions, when used as exemplars in the prompt, significantly improve decision-making in retrieval-augmented LLM and VLM agents. Our ICAL agent surpasses the state-of-the-art in dialogue-based instruction following in TEACh, multimodal web agents in VisualWebArena, and action anticipation in Ego4D. In TEACh, we achieve a 12.6% improvement in goal-condition success. In VisualWebArena, our task success rate improves over the SOTA from 14.3% to 22.7%. In Ego4D action forecasting, we improve over few-shot GPT-4V and remain competitive with supervised models. We show finetuning our retrieval-augmented in-context agent yields additional improvements. Our approach significantly reduces reliance on expert-crafted examples and consistently outperforms in-context learning from action plans that lack such insights.

Summary

AI-Generated Summary

PDF52November 29, 2024