ChatPaper.aiChatPaper

Modèles de diffusion vidéo conscients de la cible

Target-Aware Video Diffusion Models

March 24, 2025
Auteurs: Taeksoo Kim, Hanbyul Joo
cs.AI

Résumé

Nous présentons un modèle de diffusion vidéo conscient de la cible qui génère des vidéos à partir d'une image d'entrée dans laquelle un acteur interagit avec une cible spécifiée tout en effectuant une action souhaitée. La cible est définie par un masque de segmentation et l'action souhaitée est décrite via une invite textuelle. Contrairement aux modèles de diffusion image-à-vidéo contrôlables existants qui reposent souvent sur des indices structurels ou de mouvement denses pour guider les mouvements de l'acteur vers la cible, notre modèle conscient de la cible ne nécessite qu'un simple masque pour indiquer la cible, exploitant les capacités de généralisation des modèles pré-entraînés pour produire des actions plausibles. Cela rend notre méthode particulièrement efficace pour les scénarios d'interaction humain-objet (HOI), où fournir un guidage d'action précis est difficile, et permet en outre l'utilisation de modèles de diffusion vidéo pour la planification d'actions de haut niveau dans des applications telles que la robotique. Nous construisons notre modèle conscient de la cible en étendant un modèle de base pour incorporer le masque de cible comme entrée supplémentaire. Pour renforcer la conscience de la cible, nous introduisons un jeton spécial qui encode les informations spatiales de la cible dans l'invite textuelle. Nous affinons ensuite le modèle avec notre jeu de données soigneusement sélectionné en utilisant une nouvelle perte d'attention croisée qui aligne les cartes d'attention croisée associées à ce jeton avec le masque de cible d'entrée. Pour améliorer encore les performances, nous appliquons sélectivement cette perte aux blocs de transformateurs et aux régions d'attention les plus pertinents sur le plan sémantique. Les résultats expérimentaux montrent que notre modèle conscient de la cible surpasse les solutions existantes dans la génération de vidéos où les acteurs interagissent avec précision avec les cibles spécifiées. Nous démontrons en outre son efficacité dans deux applications en aval : la création de contenu vidéo et la synthèse de mouvement 3D HOI en zero-shot.
English
We present a target-aware video diffusion model that generates videos from an input image in which an actor interacts with a specified target while performing a desired action. The target is defined by a segmentation mask and the desired action is described via a text prompt. Unlike existing controllable image-to-video diffusion models that often rely on dense structural or motion cues to guide the actor's movements toward the target, our target-aware model requires only a simple mask to indicate the target, leveraging the generalization capabilities of pretrained models to produce plausible actions. This makes our method particularly effective for human-object interaction (HOI) scenarios, where providing precise action guidance is challenging, and further enables the use of video diffusion models for high-level action planning in applications such as robotics. We build our target-aware model by extending a baseline model to incorporate the target mask as an additional input. To enforce target awareness, we introduce a special token that encodes the target's spatial information within the text prompt. We then fine-tune the model with our curated dataset using a novel cross-attention loss that aligns the cross-attention maps associated with this token with the input target mask. To further improve performance, we selectively apply this loss to the most semantically relevant transformer blocks and attention regions. Experimental results show that our target-aware model outperforms existing solutions in generating videos where actors interact accurately with the specified targets. We further demonstrate its efficacy in two downstream applications: video content creation and zero-shot 3D HOI motion synthesis.

Summary

AI-Generated Summary

PDF52April 3, 2025