LEGO: Aprendizado de Geração de Quadros de Ação Egocêntrica via Ajuste de Instrução Visual
LEGO: Learning EGOcentric Action Frame Generation via Visual Instruction Tuning
December 6, 2023
Autores: Bolin Lai, Xiaoliang Dai, Lawrence Chen, Guan Pang, James M. Rehg, Miao Liu
cs.AI
Resumo
A geração de imagens instrucionais de ações humanas diárias a partir de uma perspectiva egocêntrica representa um passo crucial para a transferência eficiente de habilidades. Neste artigo, introduzimos um novo problema -- a geração de quadros de ação egocêntricos. O objetivo é sintetizar o quadro de ação condicionado à pergunta do usuário e a uma imagem egocêntrica de entrada que captura o ambiente do usuário. Notavelmente, os conjuntos de dados egocêntricos existentes carecem de anotações detalhadas que descrevam a execução das ações. Além disso, os modelos de manipulação de imagens baseados em difusão falham em controlar a mudança de estado de uma ação dentro do espaço de pixels correspondente da imagem egocêntrica. Para isso, ajustamos um modelo de linguagem visual de grande escala (VLLM, do inglês Visual Large Language Model) por meio de ajuste fino de instruções visuais para curar descrições de ações enriquecidas que abordem o problema proposto. Além disso, propomos a geração de quadros de ação Learn EGOcentric (LEGO) utilizando embeddings de imagem e texto do VLLM como condicionamento adicional. Validamos nosso modelo proposto em dois conjuntos de dados egocêntricos -- Ego4D e Epic-Kitchens. Nossos experimentos mostram uma melhoria significativa em relação aos modelos anteriores de manipulação de imagens, tanto na avaliação quantitativa quanto na qualitativa. Também realizamos estudos de ablação detalhados e análises para fornecer insights sobre nosso método.
English
Generating instructional images of human daily actions from an egocentric
viewpoint serves a key step towards efficient skill transfer. In this paper, we
introduce a novel problem -- egocentric action frame generation. The goal is to
synthesize the action frame conditioning on the user prompt question and an
input egocentric image that captures user's environment. Notably, existing
egocentric datasets lack the detailed annotations that describe the execution
of actions. Additionally, the diffusion-based image manipulation models fail to
control the state change of an action within the corresponding egocentric image
pixel space. To this end, we finetune a visual large language model (VLLM) via
visual instruction tuning for curating the enriched action descriptions to
address our proposed problem. Moreover, we propose to Learn EGOcentric (LEGO)
action frame generation using image and text embeddings from VLLM as additional
conditioning. We validate our proposed model on two egocentric datasets --
Ego4D and Epic-Kitchens. Our experiments show prominent improvement over prior
image manipulation models in both quantitative and qualitative evaluation. We
also conduct detailed ablation studies and analysis to provide insights on our
method.