ChatPaper.aiChatPaper

DreamActor-H1: Generazione di Video Dimostrativi Uomo-Prodotto ad Alta Fedeltà tramite Trasformatori Diffusivi con Progettazione del Movimento

DreamActor-H1: High-Fidelity Human-Product Demonstration Video Generation via Motion-designed Diffusion Transformers

June 12, 2025
Autori: Lizhen Wang, Zhurong Xia, Tianshu Hu, Pengrui Wang, Pengfei Wang, Zerong Zheng, Ming Zhou
cs.AI

Abstract

Nel settore dell'e-commerce e del marketing digitale, la generazione di video dimostrativi ad alta fedeltà che mostrano l'interazione tra esseri umani e prodotti è fondamentale per una presentazione efficace dei prodotti. Tuttavia, la maggior parte dei framework esistenti non riesce a preservare le identità sia degli esseri umani che dei prodotti o manca di una comprensione delle relazioni spaziali tra esseri umani e prodotti, portando a rappresentazioni irrealistiche e interazioni innaturali. Per affrontare queste sfide, proponiamo un framework basato su un Transformer a Diffusione (DiT). Il nostro metodo preserva simultaneamente le identità umane e i dettagli specifici dei prodotti, come loghi e texture, iniettando informazioni di riferimento accoppiate tra esseri umani e prodotti e utilizzando un meccanismo aggiuntivo di cross-attention mascherata. Impieghiamo un modello di mesh corporea 3D e bounding box dei prodotti per fornire una guida precisa ai movimenti, consentendo un allineamento intuitivo dei gesti delle mani con il posizionamento dei prodotti. Inoltre, utilizziamo una codifica testuale strutturata per incorporare semantiche a livello di categoria, migliorando la coerenza 3D durante piccoli cambiamenti rotazionali tra i fotogrammi. Addestrato su un dataset ibrido con strategie estese di aumento dei dati, il nostro approccio supera le tecniche all'avanguardia nel mantenere l'integrità dell'identità sia degli esseri umani che dei prodotti e nel generare movimenti dimostrativi realistici. Pagina del progetto: https://submit2025-dream.github.io/DreamActor-H1/.
English
In e-commerce and digital marketing, generating high-fidelity human-product demonstration videos is important for effective product presentation. However, most existing frameworks either fail to preserve the identities of both humans and products or lack an understanding of human-product spatial relationships, leading to unrealistic representations and unnatural interactions. To address these challenges, we propose a Diffusion Transformer (DiT)-based framework. Our method simultaneously preserves human identities and product-specific details, such as logos and textures, by injecting paired human-product reference information and utilizing an additional masked cross-attention mechanism. We employ a 3D body mesh template and product bounding boxes to provide precise motion guidance, enabling intuitive alignment of hand gestures with product placements. Additionally, structured text encoding is used to incorporate category-level semantics, enhancing 3D consistency during small rotational changes across frames. Trained on a hybrid dataset with extensive data augmentation strategies, our approach outperforms state-of-the-art techniques in maintaining the identity integrity of both humans and products and generating realistic demonstration motions. Project page: https://submit2025-dream.github.io/DreamActor-H1/.
PDF42June 13, 2025