ChatPaper.aiChatPaper

DreamActor-H1 : Génération de vidéos haute fidélité de démonstration humain-produit via des Transformers à Diffusion conçus pour le mouvement

DreamActor-H1: High-Fidelity Human-Product Demonstration Video Generation via Motion-designed Diffusion Transformers

June 12, 2025
Auteurs: Lizhen Wang, Zhurong Xia, Tianshu Hu, Pengrui Wang, Pengfei Wang, Zerong Zheng, Ming Zhou
cs.AI

Résumé

Dans le domaine du commerce électronique et du marketing digital, la génération de vidéos de démonstration humain-produit de haute fidélité est essentielle pour une présentation efficace des produits. Cependant, la plupart des frameworks existants échouent soit à préserver les identités des humains et des produits, soit à comprendre les relations spatiales entre l'humain et le produit, ce qui conduit à des représentations irréalistes et à des interactions peu naturelles. Pour relever ces défis, nous proposons un framework basé sur un Transformer à Diffusion (DiT). Notre méthode préserve simultanément les identités humaines et les détails spécifiques aux produits, tels que les logos et les textures, en injectant des informations de référence appariées humain-produit et en utilisant un mécanisme supplémentaire d'attention croisée masquée. Nous employons un modèle de maillage corporel 3D et des boîtes englobantes de produits pour fournir un guidage précis des mouvements, permettant un alignement intuitif des gestes de la main avec le placement des produits. De plus, un encodage de texte structuré est utilisé pour intégrer des sémantiques au niveau des catégories, améliorant la cohérence 3D lors de petits changements de rotation entre les images. Entraîné sur un ensemble de données hybride avec des stratégies d'augmentation de données étendues, notre approche surpasse les techniques de pointe en matière de préservation de l'intégrité des identités humaines et des produits, ainsi que de génération de mouvements de démonstration réalistes. Page du projet : https://submit2025-dream.github.io/DreamActor-H1/.
English
In e-commerce and digital marketing, generating high-fidelity human-product demonstration videos is important for effective product presentation. However, most existing frameworks either fail to preserve the identities of both humans and products or lack an understanding of human-product spatial relationships, leading to unrealistic representations and unnatural interactions. To address these challenges, we propose a Diffusion Transformer (DiT)-based framework. Our method simultaneously preserves human identities and product-specific details, such as logos and textures, by injecting paired human-product reference information and utilizing an additional masked cross-attention mechanism. We employ a 3D body mesh template and product bounding boxes to provide precise motion guidance, enabling intuitive alignment of hand gestures with product placements. Additionally, structured text encoding is used to incorporate category-level semantics, enhancing 3D consistency during small rotational changes across frames. Trained on a hybrid dataset with extensive data augmentation strategies, our approach outperforms state-of-the-art techniques in maintaining the identity integrity of both humans and products and generating realistic demonstration motions. Project page: https://submit2025-dream.github.io/DreamActor-H1/.
PDF42June 13, 2025