LEGO: Aprendizaje de la Generación de Marcos de Acción Egocéntrica mediante Sintonización Visual con Instrucciones
LEGO: Learning EGOcentric Action Frame Generation via Visual Instruction Tuning
December 6, 2023
Autores: Bolin Lai, Xiaoliang Dai, Lawrence Chen, Guan Pang, James M. Rehg, Miao Liu
cs.AI
Resumen
La generación de imágenes instructivas de acciones humanas cotidianas desde una perspectiva egocéntrica representa un paso clave hacia la transferencia eficiente de habilidades. En este artículo, presentamos un problema novedoso: la generación de marcos de acción egocéntricos. El objetivo es sintetizar el marco de acción condicionado por una pregunta de indicación del usuario y una imagen egocéntrica de entrada que capture el entorno del usuario. Cabe destacar que los conjuntos de datos egocéntricos existentes carecen de anotaciones detalladas que describan la ejecución de las acciones. Además, los modelos de manipulación de imágenes basados en difusión no logran controlar el cambio de estado de una acción dentro del espacio de píxeles correspondiente a la imagen egocéntrica. Para abordar este problema, ajustamos un modelo de lenguaje visual de gran escala (VLLM, por sus siglas en inglés) mediante la sintonización de instrucciones visuales para recopilar descripciones enriquecidas de las acciones. Además, proponemos Aprender la Generación de marcos de acción EGOcéntricos (LEGO, por sus siglas en inglés) utilizando incrustaciones de imágenes y texto del VLLM como condiciones adicionales. Validamos nuestro modelo propuesto en dos conjuntos de datos egocéntricos: Ego4D y Epic-Kitchens. Nuestros experimentos muestran una mejora notable en comparación con los modelos de manipulación de imágenes anteriores, tanto en la evaluación cuantitativa como cualitativa. También realizamos estudios de ablación detallados y análisis para ofrecer información sobre nuestro método.
English
Generating instructional images of human daily actions from an egocentric
viewpoint serves a key step towards efficient skill transfer. In this paper, we
introduce a novel problem -- egocentric action frame generation. The goal is to
synthesize the action frame conditioning on the user prompt question and an
input egocentric image that captures user's environment. Notably, existing
egocentric datasets lack the detailed annotations that describe the execution
of actions. Additionally, the diffusion-based image manipulation models fail to
control the state change of an action within the corresponding egocentric image
pixel space. To this end, we finetune a visual large language model (VLLM) via
visual instruction tuning for curating the enriched action descriptions to
address our proposed problem. Moreover, we propose to Learn EGOcentric (LEGO)
action frame generation using image and text embeddings from VLLM as additional
conditioning. We validate our proposed model on two egocentric datasets --
Ego4D and Epic-Kitchens. Our experiments show prominent improvement over prior
image manipulation models in both quantitative and qualitative evaluation. We
also conduct detailed ablation studies and analysis to provide insights on our
method.