ChatPaper.aiChatPaper

DreamActor-H1: Hochauflösende Generierung von Mensch-Produkt-Demonstrationsvideos durch bewegungsgesteuerte Diffusionstransformatoren

DreamActor-H1: High-Fidelity Human-Product Demonstration Video Generation via Motion-designed Diffusion Transformers

June 12, 2025
Autoren: Lizhen Wang, Zhurong Xia, Tianshu Hu, Pengrui Wang, Pengfei Wang, Zerong Zheng, Ming Zhou
cs.AI

Zusammenfassung

Im E-Commerce und im digitalen Marketing ist die Erstellung hochwertiger Mensch-Produkt-Demonstrationsvideos entscheidend für eine effektive Produktpräsentation. Die meisten bestehenden Frameworks bewahren jedoch entweder nicht die Identitäten von Menschen und Produkten oder verstehen die räumlichen Beziehungen zwischen Mensch und Produkt nicht, was zu unrealistischen Darstellungen und unnatürlichen Interaktionen führt. Um diese Herausforderungen zu bewältigen, schlagen wir ein auf Diffusion Transformer (DiT) basierendes Framework vor. Unsere Methode bewahrt gleichzeitig die Identitäten der Menschen und produktspezifische Details wie Logos und Texturen, indem gepaarte Mensch-Produkt-Referenzinformationen injiziert und ein zusätzlicher maskierter Cross-Attention-Mechanismus genutzt wird. Wir verwenden eine 3D-Körpernetz-Vorlage und Produktbegrenzungsrahmen, um präzise Bewegungsanleitungen zu bieten und so eine intuitive Ausrichtung von Handgesten mit Produktplatzierungen zu ermöglichen. Zusätzlich wird strukturierte Textkodierung verwendet, um kategoriebezogene Semantik einzubeziehen, was die 3D-Konsistenz bei kleinen Rotationsänderungen über die Frames hinweg verbessert. Unser Ansatz, der auf einem hybriden Datensatz mit umfangreichen Datenaugmentationsstrategien trainiert wurde, übertrifft state-of-the-art-Techniken in der Wahrung der Identitätsintegrität von Menschen und Produkten sowie in der Erzeugung realistischer Demonstrationsbewegungen. Projektseite: https://submit2025-dream.github.io/DreamActor-H1/.
English
In e-commerce and digital marketing, generating high-fidelity human-product demonstration videos is important for effective product presentation. However, most existing frameworks either fail to preserve the identities of both humans and products or lack an understanding of human-product spatial relationships, leading to unrealistic representations and unnatural interactions. To address these challenges, we propose a Diffusion Transformer (DiT)-based framework. Our method simultaneously preserves human identities and product-specific details, such as logos and textures, by injecting paired human-product reference information and utilizing an additional masked cross-attention mechanism. We employ a 3D body mesh template and product bounding boxes to provide precise motion guidance, enabling intuitive alignment of hand gestures with product placements. Additionally, structured text encoding is used to incorporate category-level semantics, enhancing 3D consistency during small rotational changes across frames. Trained on a hybrid dataset with extensive data augmentation strategies, our approach outperforms state-of-the-art techniques in maintaining the identity integrity of both humans and products and generating realistic demonstration motions. Project page: https://submit2025-dream.github.io/DreamActor-H1/.
PDF42June 13, 2025