LEGO: Aprendizaje de la Generación de Marcos de Acción Egocéntrica mediante Sintonización Visual con Instrucciones

Resumen

La generación de imágenes instructivas de acciones humanas cotidianas desde una perspectiva egocéntrica representa un paso clave hacia la transferencia eficiente de habilidades. En este artículo, presentamos un problema novedoso: la generación de marcos de acción egocéntricos. El objetivo es sintetizar el marco de acción condicionado por una pregunta de indicación del usuario y una imagen egocéntrica de entrada que capture el entorno del usuario. Cabe destacar que los conjuntos de datos egocéntricos existentes carecen de anotaciones detalladas que describan la ejecución de las acciones. Además, los modelos de manipulación de imágenes basados en difusión no logran controlar el cambio de estado de una acción dentro del espacio de píxeles correspondiente a la imagen egocéntrica. Para abordar este problema, ajustamos un modelo de lenguaje visual de gran escala (VLLM, por sus siglas en inglés) mediante la sintonización de instrucciones visuales para recopilar descripciones enriquecidas de las acciones. Además, proponemos Aprender la Generación de marcos de acción EGOcéntricos (LEGO, por sus siglas en inglés) utilizando incrustaciones de imágenes y texto del VLLM como condiciones adicionales. Validamos nuestro modelo propuesto en dos conjuntos de datos egocéntricos: Ego4D y Epic-Kitchens. Nuestros experimentos muestran una mejora notable en comparación con los modelos de manipulación de imágenes anteriores, tanto en la evaluación cuantitativa como cualitativa. También realizamos estudios de ablación detallados y análisis para ofrecer información sobre nuestro método.

English

Generating instructional images of human daily actions from an egocentric viewpoint serves a key step towards efficient skill transfer. In this paper, we introduce a novel problem -- egocentric action frame generation. The goal is to synthesize the action frame conditioning on the user prompt question and an input egocentric image that captures user's environment. Notably, existing egocentric datasets lack the detailed annotations that describe the execution of actions. Additionally, the diffusion-based image manipulation models fail to control the state change of an action within the corresponding egocentric image pixel space. To this end, we finetune a visual large language model (VLLM) via visual instruction tuning for curating the enriched action descriptions to address our proposed problem. Moreover, we propose to Learn EGOcentric (LEGO) action frame generation using image and text embeddings from VLLM as additional conditioning. We validate our proposed model on two egocentric datasets -- Ego4D and Epic-Kitchens. Our experiments show prominent improvement over prior image manipulation models in both quantitative and qualitative evaluation. We also conduct detailed ablation studies and analysis to provide insights on our method.

LEGO: Aprendizaje de la Generación de Marcos de Acción Egocéntrica mediante Sintonización Visual con Instrucciones

LEGO: Learning EGOcentric Action Frame Generation via Visual Instruction Tuning

Resumen

Support