ChatPaper.aiChatPaper

DreamActor-H1: Generatie van hoogwaardige demonstratievideo's van mens-productinteracties via motion-ontworpen diffusie-transformers

DreamActor-H1: High-Fidelity Human-Product Demonstration Video Generation via Motion-designed Diffusion Transformers

June 12, 2025
Auteurs: Lizhen Wang, Zhurong Xia, Tianshu Hu, Pengrui Wang, Pengfei Wang, Zerong Zheng, Ming Zhou
cs.AI

Samenvatting

In e-commerce en digitale marketing is het genereren van hoogwaardige mens-product demonstratievideo's belangrijk voor een effectieve productpresentatie. De meeste bestaande frameworks slagen er echter niet in om de identiteiten van zowel mensen als producten te behouden of missen een begrip van de ruimtelijke relaties tussen mens en product, wat leidt tot onrealistische representaties en onnatuurlijke interacties. Om deze uitdagingen aan te pakken, stellen we een op Diffusion Transformer (DiT) gebaseerd framework voor. Onze methode behoudt gelijktijdig menselijke identiteiten en product-specifieke details, zoals logo's en texturen, door gepaarde mens-product referentie-informatie te injecteren en een aanvullende gemaskeerde cross-attention mechanisme te gebruiken. We gebruiken een 3D lichaamsmesh-sjabloon en productbegrenzingsvakken om precieze bewegingsrichtlijnen te bieden, waardoor een intuïtieve uitlijning van handgebaren met productplaatsingen mogelijk wordt. Daarnaast wordt gestructureerde tekstcodering gebruikt om categorie-niveau semantiek te integreren, wat de 3D-consistentie verbetert tijdens kleine rotatieveranderingen tussen frames. Getraind op een hybride dataset met uitgebreide data-augmentatiestrategieën, presteert onze aanpak beter dan state-of-the-art technieken in het behouden van de identiteitsintegriteit van zowel mensen als producten en het genereren van realistische demonstratiebewegingen. Projectpagina: https://submit2025-dream.github.io/DreamActor-H1/.
English
In e-commerce and digital marketing, generating high-fidelity human-product demonstration videos is important for effective product presentation. However, most existing frameworks either fail to preserve the identities of both humans and products or lack an understanding of human-product spatial relationships, leading to unrealistic representations and unnatural interactions. To address these challenges, we propose a Diffusion Transformer (DiT)-based framework. Our method simultaneously preserves human identities and product-specific details, such as logos and textures, by injecting paired human-product reference information and utilizing an additional masked cross-attention mechanism. We employ a 3D body mesh template and product bounding boxes to provide precise motion guidance, enabling intuitive alignment of hand gestures with product placements. Additionally, structured text encoding is used to incorporate category-level semantics, enhancing 3D consistency during small rotational changes across frames. Trained on a hybrid dataset with extensive data augmentation strategies, our approach outperforms state-of-the-art techniques in maintaining the identity integrity of both humans and products and generating realistic demonstration motions. Project page: https://submit2025-dream.github.io/DreamActor-H1/.
PDF42June 13, 2025