DreamActor-H1: Генерация высококачественных демонстрационных видео взаимодействия человека с продуктом с использованием диффузионных трансформеров с проектированием движений
DreamActor-H1: High-Fidelity Human-Product Demonstration Video Generation via Motion-designed Diffusion Transformers
June 12, 2025
Авторы: Lizhen Wang, Zhurong Xia, Tianshu Hu, Pengrui Wang, Pengfei Wang, Zerong Zheng, Ming Zhou
cs.AI
Аннотация
В электронной коммерции и цифровом маркетинге создание высококачественных демонстрационных видео с участием людей и продуктов играет важную роль для эффективной презентации товаров. Однако большинство существующих подходов либо не сохраняют идентичность как людей, так и продуктов, либо не учитывают пространственные взаимоотношения между ними, что приводит к нереалистичным представлениям и неестественным взаимодействиям. Для решения этих проблем мы предлагаем фреймворк на основе Diffusion Transformer (DiT). Наш метод одновременно сохраняет идентичность людей и детали продуктов, такие как логотипы и текстуры, путем внедрения парной информации о человеке и продукте и использования дополнительного механизма маскированного кросс-внимания. Мы применяем 3D-шаблон тела и ограничивающие рамки продуктов для обеспечения точного управления движением, что позволяет интуитивно согласовывать жесты рук с размещением продуктов. Кроме того, структурированное текстовое кодирование используется для включения семантики на уровне категорий, что повышает 3D-согласованность при небольших вращательных изменениях между кадрами. Обучаясь на гибридном наборе данных с использованием стратегий расширения данных, наш подход превосходит современные методы в сохранении целостности идентичности как людей, так и продуктов и в генерации реалистичных демонстрационных движений. Страница проекта: https://submit2025-dream.github.io/DreamActor-H1/.
English
In e-commerce and digital marketing, generating high-fidelity human-product
demonstration videos is important for effective product presentation. However,
most existing frameworks either fail to preserve the identities of both humans
and products or lack an understanding of human-product spatial relationships,
leading to unrealistic representations and unnatural interactions. To address
these challenges, we propose a Diffusion Transformer (DiT)-based framework. Our
method simultaneously preserves human identities and product-specific details,
such as logos and textures, by injecting paired human-product reference
information and utilizing an additional masked cross-attention mechanism. We
employ a 3D body mesh template and product bounding boxes to provide precise
motion guidance, enabling intuitive alignment of hand gestures with product
placements. Additionally, structured text encoding is used to incorporate
category-level semantics, enhancing 3D consistency during small rotational
changes across frames. Trained on a hybrid dataset with extensive data
augmentation strategies, our approach outperforms state-of-the-art techniques
in maintaining the identity integrity of both humans and products and
generating realistic demonstration motions. Project page:
https://submit2025-dream.github.io/DreamActor-H1/.