LEGO: Apprendimento della Generazione di Frame Azione EGOcentrica tramite Sintonizzazione Visiva con Istruzioni
LEGO: Learning EGOcentric Action Frame Generation via Visual Instruction Tuning
December 6, 2023
Autori: Bolin Lai, Xiaoliang Dai, Lawrence Chen, Guan Pang, James M. Rehg, Miao Liu
cs.AI
Abstract
La generazione di immagini didattiche che rappresentano azioni quotidiane umane da un punto di vista egocentrico costituisce un passo fondamentale verso un trasferimento efficiente delle competenze. In questo articolo, introduciamo un nuovo problema: la generazione di frame d'azione egocentrici. L'obiettivo è sintetizzare il frame d'azione condizionato alla domanda dell'utente e a un'immagine egocentrica in ingresso che cattura l'ambiente dell'utente. È importante notare che i dataset egocentrici esistenti mancano di annotazioni dettagliate che descrivono l'esecuzione delle azioni. Inoltre, i modelli di manipolazione delle immagini basati su diffusione non riescono a controllare il cambiamento di stato di un'azione all'interno dello spazio dei pixel dell'immagine egocentrica corrispondente. A tal fine, ottimizziamo un modello linguistico visivo di grandi dimensioni (VLLM) tramite il tuning di istruzioni visive per curare descrizioni arricchite delle azioni e affrontare il problema proposto. Inoltre, proponiamo di apprendere la generazione di frame d'azione EGOcentrici (LEGO) utilizzando gli embedding di immagini e testo del VLLM come condizionamento aggiuntivo. Validiamo il nostro modello proposto su due dataset egocentrici: Ego4D ed Epic-Kitchens. I nostri esperimenti mostrano un miglioramento significativo rispetto ai precedenti modelli di manipolazione delle immagini sia nella valutazione quantitativa che qualitativa. Condividiamo anche studi di ablazione dettagliati e analisi per fornire approfondimenti sul nostro metodo.
English
Generating instructional images of human daily actions from an egocentric
viewpoint serves a key step towards efficient skill transfer. In this paper, we
introduce a novel problem -- egocentric action frame generation. The goal is to
synthesize the action frame conditioning on the user prompt question and an
input egocentric image that captures user's environment. Notably, existing
egocentric datasets lack the detailed annotations that describe the execution
of actions. Additionally, the diffusion-based image manipulation models fail to
control the state change of an action within the corresponding egocentric image
pixel space. To this end, we finetune a visual large language model (VLLM) via
visual instruction tuning for curating the enriched action descriptions to
address our proposed problem. Moreover, we propose to Learn EGOcentric (LEGO)
action frame generation using image and text embeddings from VLLM as additional
conditioning. We validate our proposed model on two egocentric datasets --
Ego4D and Epic-Kitchens. Our experiments show prominent improvement over prior
image manipulation models in both quantitative and qualitative evaluation. We
also conduct detailed ablation studies and analysis to provide insights on our
method.