ИКАЛ: Непрерывное обучение мультимодальных агентов путем преобразования траекторий в действенные идеи
ICAL: Continual Learning of Multimodal Agents by Transforming Trajectories into Actionable Insights
June 20, 2024
Авторы: Gabriel Sarch, Lawrence Jang, Michael J. Tarr, William W. Cohen, Kenneth Marino, Katerina Fragkiadaki
cs.AI
Аннотация
Модели широкомасштабного генеративного языка и видео-языка (LLM и VLM) проявляют выдающиеся результаты в обучении с малым количеством примеров в контексте для принятия решений и следования инструкциям. Однако для них необходимы высококачественные образцы демонстраций, включенные в их контекстное окно. В данной работе мы задаем вопрос: могут ли LLM и VLM генерировать свои собственные примеры подсказок из общих, неоптимальных демонстраций? Мы предлагаем метод In-Context Abstraction Learning (ICAL), который создает память о мультимодальных опытных знаниях из неоптимальных демонстраций и обратной связи от человека. Получив шумную демонстрацию в новой области, VLM абстрагирует траекторию в общую программу, исправляя неэффективные действия и аннотируя когнитивные абстракции: отношения между задачами, изменения состояния объектов, временные подцели и концепции задач. Эти абстракции уточняются и адаптируются взаимодейственно через обратную связь от человека, пока агент пытается выполнить траекторию в похожей среде. Полученные абстракции, когда используются в качестве образцов в подсказке, значительно улучшают принятие решений у агентов LLM и VLM с увеличением поиска. Наш агент ICAL превосходит современные достижения в следовании инструкциям на основе диалога в TEACh, мультимодальных веб-агентов в VisualWebArena и предварительного прогнозирования действий в Ego4D. В TEACh мы достигаем улучшения в 12,6% в успешности выполнения целевого условия. В VisualWebArena наша успешность выполнения задачи увеличивается с 14,3% до 22,7% по сравнению с современными достижениями. В предварительном прогнозировании действий Ego4D мы улучшаем результаты по сравнению с few-shot GPT-4V и остаемся конкурентоспособными с обученными моделями. Мы показываем, что донастройка нашего агента с поиском улучшений в контексте значительно снижает зависимость от созданных экспертами примеров и последовательно превосходит обучение в контексте по планам действий, не обладающим такими знаниями.
English
Large-scale generative language and vision-language models (LLMs and VLMs)
excel in few-shot in-context learning for decision making and instruction
following. However, they require high-quality exemplar demonstrations to be
included in their context window. In this work, we ask: Can LLMs and VLMs
generate their own prompt examples from generic, sub-optimal demonstrations? We
propose In-Context Abstraction Learning (ICAL), a method that builds a memory
of multimodal experience insights from sub-optimal demonstrations and human
feedback. Given a noisy demonstration in a new domain, VLMs abstract the
trajectory into a general program by fixing inefficient actions and annotating
cognitive abstractions: task relationships, object state changes, temporal
subgoals, and task construals. These abstractions are refined and adapted
interactively through human feedback while the agent attempts to execute the
trajectory in a similar environment. The resulting abstractions, when used as
exemplars in the prompt, significantly improve decision-making in
retrieval-augmented LLM and VLM agents. Our ICAL agent surpasses the
state-of-the-art in dialogue-based instruction following in TEACh, multimodal
web agents in VisualWebArena, and action anticipation in Ego4D. In TEACh, we
achieve a 12.6% improvement in goal-condition success. In VisualWebArena, our
task success rate improves over the SOTA from 14.3% to 22.7%. In Ego4D action
forecasting, we improve over few-shot GPT-4V and remain competitive with
supervised models. We show finetuning our retrieval-augmented in-context agent
yields additional improvements. Our approach significantly reduces reliance on
expert-crafted examples and consistently outperforms in-context learning from
action plans that lack such insights.Summary
AI-Generated Summary