DreamActor-H1: Geração de Vídeos de Demonstração Humano-Produto de Alta Fidelidade via Transformadores de Difusão com Movimento Projetado

Resumo

No comércio eletrônico e no marketing digital, a geração de vídeos de demonstração humano-produto de alta fidelidade é importante para uma apresentação eficaz de produtos. No entanto, a maioria das estruturas existentes falha em preservar as identidades tanto dos humanos quanto dos produtos ou carece de uma compreensão das relações espaciais humano-produto, resultando em representações irreais e interações não naturais. Para enfrentar esses desafios, propomos uma estrutura baseada em Transformador de Difusão (DiT). Nosso método preserva simultaneamente as identidades humanas e os detalhes específicos dos produtos, como logotipos e texturas, ao injetar informações de referência humano-produto emparelhadas e utilizar um mecanismo adicional de atenção cruzada mascarada. Empregamos um modelo de malha corporal 3D e caixas delimitadoras de produtos para fornecer orientação precisa de movimento, permitindo o alinhamento intuitivo de gestos manuais com o posicionamento dos produtos. Além disso, a codificação estruturada de texto é usada para incorporar semânticas de nível de categoria, melhorando a consistência 3D durante pequenas mudanças rotacionais entre os quadros. Treinado em um conjunto de dados híbrido com estratégias extensas de aumento de dados, nossa abordagem supera as técnicas mais avançadas na manutenção da integridade da identidade tanto de humanos quanto de produtos e na geração de movimentos de demonstração realistas. Página do projeto: https://submit2025-dream.github.io/DreamActor-H1/.

English

In e-commerce and digital marketing, generating high-fidelity human-product demonstration videos is important for effective product presentation. However, most existing frameworks either fail to preserve the identities of both humans and products or lack an understanding of human-product spatial relationships, leading to unrealistic representations and unnatural interactions. To address these challenges, we propose a Diffusion Transformer (DiT)-based framework. Our method simultaneously preserves human identities and product-specific details, such as logos and textures, by injecting paired human-product reference information and utilizing an additional masked cross-attention mechanism. We employ a 3D body mesh template and product bounding boxes to provide precise motion guidance, enabling intuitive alignment of hand gestures with product placements. Additionally, structured text encoding is used to incorporate category-level semantics, enhancing 3D consistency during small rotational changes across frames. Trained on a hybrid dataset with extensive data augmentation strategies, our approach outperforms state-of-the-art techniques in maintaining the identity integrity of both humans and products and generating realistic demonstration motions. Project page: https://submit2025-dream.github.io/DreamActor-H1/.

DreamActor-H1: Geração de Vídeos de Demonstração Humano-Produto de Alta Fidelidade via Transformadores de Difusão com Movimento Projetado

DreamActor-H1: High-Fidelity Human-Product Demonstration Video Generation via Motion-designed Diffusion Transformers

Resumo

Support