DreamActor-H1: Geração de Vídeos de Demonstração Humano-Produto de Alta Fidelidade via Transformadores de Difusão com Movimento Projetado
DreamActor-H1: High-Fidelity Human-Product Demonstration Video Generation via Motion-designed Diffusion Transformers
June 12, 2025
Autores: Lizhen Wang, Zhurong Xia, Tianshu Hu, Pengrui Wang, Pengfei Wang, Zerong Zheng, Ming Zhou
cs.AI
Resumo
No comércio eletrônico e no marketing digital, a geração de vídeos de demonstração humano-produto de alta fidelidade é importante para uma apresentação eficaz de produtos. No entanto, a maioria das estruturas existentes falha em preservar as identidades tanto dos humanos quanto dos produtos ou carece de uma compreensão das relações espaciais humano-produto, resultando em representações irreais e interações não naturais. Para enfrentar esses desafios, propomos uma estrutura baseada em Transformador de Difusão (DiT). Nosso método preserva simultaneamente as identidades humanas e os detalhes específicos dos produtos, como logotipos e texturas, ao injetar informações de referência humano-produto emparelhadas e utilizar um mecanismo adicional de atenção cruzada mascarada. Empregamos um modelo de malha corporal 3D e caixas delimitadoras de produtos para fornecer orientação precisa de movimento, permitindo o alinhamento intuitivo de gestos manuais com o posicionamento dos produtos. Além disso, a codificação estruturada de texto é usada para incorporar semânticas de nível de categoria, melhorando a consistência 3D durante pequenas mudanças rotacionais entre os quadros. Treinado em um conjunto de dados híbrido com estratégias extensas de aumento de dados, nossa abordagem supera as técnicas mais avançadas na manutenção da integridade da identidade tanto de humanos quanto de produtos e na geração de movimentos de demonstração realistas. Página do projeto: https://submit2025-dream.github.io/DreamActor-H1/.
English
In e-commerce and digital marketing, generating high-fidelity human-product
demonstration videos is important for effective product presentation. However,
most existing frameworks either fail to preserve the identities of both humans
and products or lack an understanding of human-product spatial relationships,
leading to unrealistic representations and unnatural interactions. To address
these challenges, we propose a Diffusion Transformer (DiT)-based framework. Our
method simultaneously preserves human identities and product-specific details,
such as logos and textures, by injecting paired human-product reference
information and utilizing an additional masked cross-attention mechanism. We
employ a 3D body mesh template and product bounding boxes to provide precise
motion guidance, enabling intuitive alignment of hand gestures with product
placements. Additionally, structured text encoding is used to incorporate
category-level semantics, enhancing 3D consistency during small rotational
changes across frames. Trained on a hybrid dataset with extensive data
augmentation strategies, our approach outperforms state-of-the-art techniques
in maintaining the identity integrity of both humans and products and
generating realistic demonstration motions. Project page:
https://submit2025-dream.github.io/DreamActor-H1/.