LEGO : Apprentissage de la Génération de Cadres d'Action Egocentrique via le Réglage d'Instructions Visuelles

papers.abstract

La génération d'images pédagogiques d'actions quotidiennes humaines à partir d'un point de vue égocentrique constitue une étape clé vers un transfert de compétences efficace. Dans cet article, nous introduisons un nouveau problème : la génération de cadres d'action égocentriques. L'objectif est de synthétiser le cadre d'action en se basant sur une question d'invite de l'utilisateur et une image égocentrique en entrée qui capture l'environnement de l'utilisateur. Il est à noter que les ensembles de données égocentriques existants manquent d'annotations détaillées décrivant l'exécution des actions. De plus, les modèles de manipulation d'images basés sur la diffusion ne parviennent pas à contrôler le changement d'état d'une action dans l'espace pixel correspondant de l'image égocentrique. Pour remédier à cela, nous affinons un modèle de langage visuel de grande envergure (VLLM) via un réglage d'instructions visuelles pour élaborer des descriptions d'actions enrichies afin de résoudre le problème que nous proposons. Par ailleurs, nous proposons d'apprendre la génération de cadres d'action EGOcentriques (LEGO) en utilisant les embeddings d'image et de texte du VLLM comme conditionnement supplémentaire. Nous validons notre modèle proposé sur deux ensembles de données égocentriques : Ego4D et Epic-Kitchens. Nos expériences montrent une amélioration notable par rapport aux modèles de manipulation d'images précédents, tant dans l'évaluation quantitative que qualitative. Nous menons également des études d'ablation détaillées et des analyses pour fournir des insights sur notre méthode.

English

Generating instructional images of human daily actions from an egocentric viewpoint serves a key step towards efficient skill transfer. In this paper, we introduce a novel problem -- egocentric action frame generation. The goal is to synthesize the action frame conditioning on the user prompt question and an input egocentric image that captures user's environment. Notably, existing egocentric datasets lack the detailed annotations that describe the execution of actions. Additionally, the diffusion-based image manipulation models fail to control the state change of an action within the corresponding egocentric image pixel space. To this end, we finetune a visual large language model (VLLM) via visual instruction tuning for curating the enriched action descriptions to address our proposed problem. Moreover, we propose to Learn EGOcentric (LEGO) action frame generation using image and text embeddings from VLLM as additional conditioning. We validate our proposed model on two egocentric datasets -- Ego4D and Epic-Kitchens. Our experiments show prominent improvement over prior image manipulation models in both quantitative and qualitative evaluation. We also conduct detailed ablation studies and analysis to provide insights on our method.

LEGO : Apprentissage de la Génération de Cadres d'Action Egocentrique via le Réglage d'Instructions Visuelles

LEGO: Learning EGOcentric Action Frame Generation via Visual Instruction Tuning

papers.abstract

Support