ChatPaper.aiChatPaper

LEGO: Обучение генерации эгоцентричных фреймов действий через визуальную настройку инструкций

LEGO: Learning EGOcentric Action Frame Generation via Visual Instruction Tuning

December 6, 2023
Авторы: Bolin Lai, Xiaoliang Dai, Lawrence Chen, Guan Pang, James M. Rehg, Miao Liu
cs.AI

Аннотация

Генерация обучающих изображений повседневных действий человека с эгоцентрической точки зрения представляет собой ключевой шаг на пути к эффективной передаче навыков. В данной работе мы вводим новую задачу — генерацию эгоцентрических кадров действий. Цель заключается в синтезе кадра действия на основе пользовательского текстового запроса и входного эгоцентрического изображения, которое фиксирует окружение пользователя. Примечательно, что существующие эгоцентрические наборы данных не содержат детальных аннотаций, описывающих выполнение действий. Кроме того, модели манипуляции изображениями на основе диффузии не способны контролировать изменение состояния действия в пределах соответствующего пиксельного пространства эгоцентрического изображения. Для решения этой проблемы мы дообучаем визуальную модель большого языка (VLLM) с помощью настройки на визуальные инструкции для создания обогащенных описаний действий. Более того, мы предлагаем метод Learn EGOcentric (LEGO) для генерации кадров действий, используя встраивания изображений и текста из VLLM в качестве дополнительных условий. Мы проверяем предложенную модель на двух эгоцентрических наборах данных — Ego4D и Epic-Kitchens. Наши эксперименты демонстрируют значительное улучшение по сравнению с предыдущими моделями манипуляции изображениями как в количественной, так и в качественной оценке. Мы также проводим детальные исследования и анализ, чтобы предоставить инсайты о нашем методе.
English
Generating instructional images of human daily actions from an egocentric viewpoint serves a key step towards efficient skill transfer. In this paper, we introduce a novel problem -- egocentric action frame generation. The goal is to synthesize the action frame conditioning on the user prompt question and an input egocentric image that captures user's environment. Notably, existing egocentric datasets lack the detailed annotations that describe the execution of actions. Additionally, the diffusion-based image manipulation models fail to control the state change of an action within the corresponding egocentric image pixel space. To this end, we finetune a visual large language model (VLLM) via visual instruction tuning for curating the enriched action descriptions to address our proposed problem. Moreover, we propose to Learn EGOcentric (LEGO) action frame generation using image and text embeddings from VLLM as additional conditioning. We validate our proposed model on two egocentric datasets -- Ego4D and Epic-Kitchens. Our experiments show prominent improvement over prior image manipulation models in both quantitative and qualitative evaluation. We also conduct detailed ablation studies and analysis to provide insights on our method.
PDF70December 15, 2024