LEGO : Apprentissage de la Génération de Cadres d'Action Egocentrique via le Réglage d'Instructions Visuelles
LEGO: Learning EGOcentric Action Frame Generation via Visual Instruction Tuning
December 6, 2023
Auteurs: Bolin Lai, Xiaoliang Dai, Lawrence Chen, Guan Pang, James M. Rehg, Miao Liu
cs.AI
Résumé
La génération d'images pédagogiques d'actions quotidiennes humaines à partir d'un point de vue égocentrique constitue une étape clé vers un transfert de compétences efficace. Dans cet article, nous introduisons un nouveau problème : la génération de cadres d'action égocentriques. L'objectif est de synthétiser le cadre d'action en se basant sur une question d'invite de l'utilisateur et une image égocentrique en entrée qui capture l'environnement de l'utilisateur. Il est à noter que les ensembles de données égocentriques existants manquent d'annotations détaillées décrivant l'exécution des actions. De plus, les modèles de manipulation d'images basés sur la diffusion ne parviennent pas à contrôler le changement d'état d'une action dans l'espace pixel correspondant de l'image égocentrique. Pour remédier à cela, nous affinons un modèle de langage visuel de grande envergure (VLLM) via un réglage d'instructions visuelles pour élaborer des descriptions d'actions enrichies afin de résoudre le problème que nous proposons. Par ailleurs, nous proposons d'apprendre la génération de cadres d'action EGOcentriques (LEGO) en utilisant les embeddings d'image et de texte du VLLM comme conditionnement supplémentaire. Nous validons notre modèle proposé sur deux ensembles de données égocentriques : Ego4D et Epic-Kitchens. Nos expériences montrent une amélioration notable par rapport aux modèles de manipulation d'images précédents, tant dans l'évaluation quantitative que qualitative. Nous menons également des études d'ablation détaillées et des analyses pour fournir des insights sur notre méthode.
English
Generating instructional images of human daily actions from an egocentric
viewpoint serves a key step towards efficient skill transfer. In this paper, we
introduce a novel problem -- egocentric action frame generation. The goal is to
synthesize the action frame conditioning on the user prompt question and an
input egocentric image that captures user's environment. Notably, existing
egocentric datasets lack the detailed annotations that describe the execution
of actions. Additionally, the diffusion-based image manipulation models fail to
control the state change of an action within the corresponding egocentric image
pixel space. To this end, we finetune a visual large language model (VLLM) via
visual instruction tuning for curating the enriched action descriptions to
address our proposed problem. Moreover, we propose to Learn EGOcentric (LEGO)
action frame generation using image and text embeddings from VLLM as additional
conditioning. We validate our proposed model on two egocentric datasets --
Ego4D and Epic-Kitchens. Our experiments show prominent improvement over prior
image manipulation models in both quantitative and qualitative evaluation. We
also conduct detailed ablation studies and analysis to provide insights on our
method.