DreamActor-H1: Generación de videos de alta fidelidad para demostraciones de productos con humanos mediante Transformers de Difusión con diseño de movimiento

Resumen

En el comercio electrónico y el marketing digital, la generación de videos de demostración humano-producto de alta fidelidad es crucial para una presentación efectiva de productos. Sin embargo, la mayoría de los marcos existentes no logran preservar las identidades tanto de los humanos como de los productos, o carecen de una comprensión de las relaciones espaciales entre humanos y productos, lo que resulta en representaciones poco realistas e interacciones antinaturales. Para abordar estos desafíos, proponemos un marco basado en Transformadores de Difusión (DiT). Nuestro método preserva simultáneamente las identidades humanas y los detalles específicos de los productos, como logotipos y texturas, mediante la inyección de información de referencia emparejada humano-producto y el uso de un mecanismo adicional de atención cruzada enmascarada. Empleamos una plantilla de malla corporal 3D y cuadros delimitadores de productos para proporcionar una guía de movimiento precisa, permitiendo una alineación intuitiva de los gestos de las manos con la ubicación de los productos. Además, se utiliza una codificación de texto estructurado para incorporar semánticas a nivel de categoría, mejorando la consistencia 3D durante pequeños cambios rotacionales entre fotogramas. Entrenado en un conjunto de datos híbrido con estrategias extensas de aumento de datos, nuestro enfoque supera a las técnicas más avanzadas en el mantenimiento de la integridad de las identidades tanto de humanos como de productos y en la generación de movimientos de demostración realistas. Página del proyecto: https://submit2025-dream.github.io/DreamActor-H1/.

English

In e-commerce and digital marketing, generating high-fidelity human-product demonstration videos is important for effective product presentation. However, most existing frameworks either fail to preserve the identities of both humans and products or lack an understanding of human-product spatial relationships, leading to unrealistic representations and unnatural interactions. To address these challenges, we propose a Diffusion Transformer (DiT)-based framework. Our method simultaneously preserves human identities and product-specific details, such as logos and textures, by injecting paired human-product reference information and utilizing an additional masked cross-attention mechanism. We employ a 3D body mesh template and product bounding boxes to provide precise motion guidance, enabling intuitive alignment of hand gestures with product placements. Additionally, structured text encoding is used to incorporate category-level semantics, enhancing 3D consistency during small rotational changes across frames. Trained on a hybrid dataset with extensive data augmentation strategies, our approach outperforms state-of-the-art techniques in maintaining the identity integrity of both humans and products and generating realistic demonstration motions. Project page: https://submit2025-dream.github.io/DreamActor-H1/.

DreamActor-H1: Generación de videos de alta fidelidad para demostraciones de productos con humanos mediante Transformers de Difusión con diseño de movimiento

DreamActor-H1: High-Fidelity Human-Product Demonstration Video Generation via Motion-designed Diffusion Transformers

Resumen

Support