DreamActor-H1: Generación de videos de alta fidelidad para demostraciones de productos con humanos mediante Transformers de Difusión con diseño de movimiento
DreamActor-H1: High-Fidelity Human-Product Demonstration Video Generation via Motion-designed Diffusion Transformers
June 12, 2025
Autores: Lizhen Wang, Zhurong Xia, Tianshu Hu, Pengrui Wang, Pengfei Wang, Zerong Zheng, Ming Zhou
cs.AI
Resumen
En el comercio electrónico y el marketing digital, la generación de videos de demostración humano-producto de alta fidelidad es crucial para una presentación efectiva de productos. Sin embargo, la mayoría de los marcos existentes no logran preservar las identidades tanto de los humanos como de los productos, o carecen de una comprensión de las relaciones espaciales entre humanos y productos, lo que resulta en representaciones poco realistas e interacciones antinaturales. Para abordar estos desafíos, proponemos un marco basado en Transformadores de Difusión (DiT). Nuestro método preserva simultáneamente las identidades humanas y los detalles específicos de los productos, como logotipos y texturas, mediante la inyección de información de referencia emparejada humano-producto y el uso de un mecanismo adicional de atención cruzada enmascarada. Empleamos una plantilla de malla corporal 3D y cuadros delimitadores de productos para proporcionar una guía de movimiento precisa, permitiendo una alineación intuitiva de los gestos de las manos con la ubicación de los productos. Además, se utiliza una codificación de texto estructurado para incorporar semánticas a nivel de categoría, mejorando la consistencia 3D durante pequeños cambios rotacionales entre fotogramas. Entrenado en un conjunto de datos híbrido con estrategias extensas de aumento de datos, nuestro enfoque supera a las técnicas más avanzadas en el mantenimiento de la integridad de las identidades tanto de humanos como de productos y en la generación de movimientos de demostración realistas. Página del proyecto: https://submit2025-dream.github.io/DreamActor-H1/.
English
In e-commerce and digital marketing, generating high-fidelity human-product
demonstration videos is important for effective product presentation. However,
most existing frameworks either fail to preserve the identities of both humans
and products or lack an understanding of human-product spatial relationships,
leading to unrealistic representations and unnatural interactions. To address
these challenges, we propose a Diffusion Transformer (DiT)-based framework. Our
method simultaneously preserves human identities and product-specific details,
such as logos and textures, by injecting paired human-product reference
information and utilizing an additional masked cross-attention mechanism. We
employ a 3D body mesh template and product bounding boxes to provide precise
motion guidance, enabling intuitive alignment of hand gestures with product
placements. Additionally, structured text encoding is used to incorporate
category-level semantics, enhancing 3D consistency during small rotational
changes across frames. Trained on a hybrid dataset with extensive data
augmentation strategies, our approach outperforms state-of-the-art techniques
in maintaining the identity integrity of both humans and products and
generating realistic demonstration motions. Project page:
https://submit2025-dream.github.io/DreamActor-H1/.