DreamActor-H1 : Génération de vidéos haute fidélité de démonstration humain-produit via des Transformers à Diffusion conçus pour le mouvement
DreamActor-H1: High-Fidelity Human-Product Demonstration Video Generation via Motion-designed Diffusion Transformers
June 12, 2025
Auteurs: Lizhen Wang, Zhurong Xia, Tianshu Hu, Pengrui Wang, Pengfei Wang, Zerong Zheng, Ming Zhou
cs.AI
Résumé
Dans le domaine du commerce électronique et du marketing digital, la génération de vidéos de démonstration humain-produit de haute fidélité est essentielle pour une présentation efficace des produits. Cependant, la plupart des frameworks existants échouent soit à préserver les identités des humains et des produits, soit à comprendre les relations spatiales entre l'humain et le produit, ce qui conduit à des représentations irréalistes et à des interactions peu naturelles. Pour relever ces défis, nous proposons un framework basé sur un Transformer à Diffusion (DiT). Notre méthode préserve simultanément les identités humaines et les détails spécifiques aux produits, tels que les logos et les textures, en injectant des informations de référence appariées humain-produit et en utilisant un mécanisme supplémentaire d'attention croisée masquée. Nous employons un modèle de maillage corporel 3D et des boîtes englobantes de produits pour fournir un guidage précis des mouvements, permettant un alignement intuitif des gestes de la main avec le placement des produits. De plus, un encodage de texte structuré est utilisé pour intégrer des sémantiques au niveau des catégories, améliorant la cohérence 3D lors de petits changements de rotation entre les images. Entraîné sur un ensemble de données hybride avec des stratégies d'augmentation de données étendues, notre approche surpasse les techniques de pointe en matière de préservation de l'intégrité des identités humaines et des produits, ainsi que de génération de mouvements de démonstration réalistes. Page du projet : https://submit2025-dream.github.io/DreamActor-H1/.
English
In e-commerce and digital marketing, generating high-fidelity human-product
demonstration videos is important for effective product presentation. However,
most existing frameworks either fail to preserve the identities of both humans
and products or lack an understanding of human-product spatial relationships,
leading to unrealistic representations and unnatural interactions. To address
these challenges, we propose a Diffusion Transformer (DiT)-based framework. Our
method simultaneously preserves human identities and product-specific details,
such as logos and textures, by injecting paired human-product reference
information and utilizing an additional masked cross-attention mechanism. We
employ a 3D body mesh template and product bounding boxes to provide precise
motion guidance, enabling intuitive alignment of hand gestures with product
placements. Additionally, structured text encoding is used to incorporate
category-level semantics, enhancing 3D consistency during small rotational
changes across frames. Trained on a hybrid dataset with extensive data
augmentation strategies, our approach outperforms state-of-the-art techniques
in maintaining the identity integrity of both humans and products and
generating realistic demonstration motions. Project page:
https://submit2025-dream.github.io/DreamActor-H1/.