ChatPaper.aiChatPaper

Modelos de Difusión de Video Conscientes del Objetivo

Target-Aware Video Diffusion Models

March 24, 2025
Autores: Taeksoo Kim, Hanbyul Joo
cs.AI

Resumen

Presentamos un modelo de difusión de video consciente del objetivo que genera videos a partir de una imagen de entrada en la que un actor interactúa con un objetivo especificado mientras realiza una acción deseada. El objetivo se define mediante una máscara de segmentación y la acción deseada se describe mediante un texto descriptivo. A diferencia de los modelos existentes de difusión de imagen a video controlable que a menudo dependen de señales estructurales o de movimiento densas para guiar los movimientos del actor hacia el objetivo, nuestro modelo consciente del objetivo requiere solo una máscara simple para indicar el objetivo, aprovechando las capacidades de generalización de modelos preentrenados para producir acciones plausibles. Esto hace que nuestro método sea particularmente efectivo para escenarios de interacción humano-objeto (HOI), donde proporcionar una guía de acción precisa es un desafío, y además permite el uso de modelos de difusión de video para la planificación de acciones de alto nivel en aplicaciones como la robótica. Construimos nuestro modelo consciente del objetivo extendiendo un modelo base para incorporar la máscara del objetivo como una entrada adicional. Para garantizar la conciencia del objetivo, introducimos un token especial que codifica la información espacial del objetivo dentro del texto descriptivo. Luego, ajustamos el modelo con nuestro conjunto de datos curado utilizando una nueva pérdida de atención cruzada que alinea los mapas de atención cruzada asociados con este token con la máscara del objetivo de entrada. Para mejorar aún más el rendimiento, aplicamos selectivamente esta pérdida a los bloques de transformadores y regiones de atención más relevantes semánticamente. Los resultados experimentales muestran que nuestro modelo consciente del objetivo supera a las soluciones existentes en la generación de videos donde los actores interactúan con precisión con los objetivos especificados. Además, demostramos su eficacia en dos aplicaciones posteriores: creación de contenido de video y síntesis de movimiento HOI 3D en modo zero-shot.
English
We present a target-aware video diffusion model that generates videos from an input image in which an actor interacts with a specified target while performing a desired action. The target is defined by a segmentation mask and the desired action is described via a text prompt. Unlike existing controllable image-to-video diffusion models that often rely on dense structural or motion cues to guide the actor's movements toward the target, our target-aware model requires only a simple mask to indicate the target, leveraging the generalization capabilities of pretrained models to produce plausible actions. This makes our method particularly effective for human-object interaction (HOI) scenarios, where providing precise action guidance is challenging, and further enables the use of video diffusion models for high-level action planning in applications such as robotics. We build our target-aware model by extending a baseline model to incorporate the target mask as an additional input. To enforce target awareness, we introduce a special token that encodes the target's spatial information within the text prompt. We then fine-tune the model with our curated dataset using a novel cross-attention loss that aligns the cross-attention maps associated with this token with the input target mask. To further improve performance, we selectively apply this loss to the most semantically relevant transformer blocks and attention regions. Experimental results show that our target-aware model outperforms existing solutions in generating videos where actors interact accurately with the specified targets. We further demonstrate its efficacy in two downstream applications: video content creation and zero-shot 3D HOI motion synthesis.

Summary

AI-Generated Summary

PDF52April 3, 2025