DreamActor-H1: Hochauflösende Generierung von Mensch-Produkt-Demonstrationsvideos durch bewegungsgesteuerte Diffusionstransformatoren
DreamActor-H1: High-Fidelity Human-Product Demonstration Video Generation via Motion-designed Diffusion Transformers
June 12, 2025
Autoren: Lizhen Wang, Zhurong Xia, Tianshu Hu, Pengrui Wang, Pengfei Wang, Zerong Zheng, Ming Zhou
cs.AI
Zusammenfassung
Im E-Commerce und im digitalen Marketing ist die Erstellung hochwertiger Mensch-Produkt-Demonstrationsvideos entscheidend für eine effektive Produktpräsentation. Die meisten bestehenden Frameworks bewahren jedoch entweder nicht die Identitäten von Menschen und Produkten oder verstehen die räumlichen Beziehungen zwischen Mensch und Produkt nicht, was zu unrealistischen Darstellungen und unnatürlichen Interaktionen führt. Um diese Herausforderungen zu bewältigen, schlagen wir ein auf Diffusion Transformer (DiT) basierendes Framework vor. Unsere Methode bewahrt gleichzeitig die Identitäten der Menschen und produktspezifische Details wie Logos und Texturen, indem gepaarte Mensch-Produkt-Referenzinformationen injiziert und ein zusätzlicher maskierter Cross-Attention-Mechanismus genutzt wird. Wir verwenden eine 3D-Körpernetz-Vorlage und Produktbegrenzungsrahmen, um präzise Bewegungsanleitungen zu bieten und so eine intuitive Ausrichtung von Handgesten mit Produktplatzierungen zu ermöglichen. Zusätzlich wird strukturierte Textkodierung verwendet, um kategoriebezogene Semantik einzubeziehen, was die 3D-Konsistenz bei kleinen Rotationsänderungen über die Frames hinweg verbessert. Unser Ansatz, der auf einem hybriden Datensatz mit umfangreichen Datenaugmentationsstrategien trainiert wurde, übertrifft state-of-the-art-Techniken in der Wahrung der Identitätsintegrität von Menschen und Produkten sowie in der Erzeugung realistischer Demonstrationsbewegungen. Projektseite: https://submit2025-dream.github.io/DreamActor-H1/.
English
In e-commerce and digital marketing, generating high-fidelity human-product
demonstration videos is important for effective product presentation. However,
most existing frameworks either fail to preserve the identities of both humans
and products or lack an understanding of human-product spatial relationships,
leading to unrealistic representations and unnatural interactions. To address
these challenges, we propose a Diffusion Transformer (DiT)-based framework. Our
method simultaneously preserves human identities and product-specific details,
such as logos and textures, by injecting paired human-product reference
information and utilizing an additional masked cross-attention mechanism. We
employ a 3D body mesh template and product bounding boxes to provide precise
motion guidance, enabling intuitive alignment of hand gestures with product
placements. Additionally, structured text encoding is used to incorporate
category-level semantics, enhancing 3D consistency during small rotational
changes across frames. Trained on a hybrid dataset with extensive data
augmentation strategies, our approach outperforms state-of-the-art techniques
in maintaining the identity integrity of both humans and products and
generating realistic demonstration motions. Project page:
https://submit2025-dream.github.io/DreamActor-H1/.