ChatPaper.aiChatPaper

DreamActor-H1: Генерация высококачественных демонстрационных видео взаимодействия человека с продуктом с использованием диффузионных трансформеров с проектированием движений

DreamActor-H1: High-Fidelity Human-Product Demonstration Video Generation via Motion-designed Diffusion Transformers

June 12, 2025
Авторы: Lizhen Wang, Zhurong Xia, Tianshu Hu, Pengrui Wang, Pengfei Wang, Zerong Zheng, Ming Zhou
cs.AI

Аннотация

В электронной коммерции и цифровом маркетинге создание высококачественных демонстрационных видео с участием людей и продуктов играет важную роль для эффективной презентации товаров. Однако большинство существующих подходов либо не сохраняют идентичность как людей, так и продуктов, либо не учитывают пространственные взаимоотношения между ними, что приводит к нереалистичным представлениям и неестественным взаимодействиям. Для решения этих проблем мы предлагаем фреймворк на основе Diffusion Transformer (DiT). Наш метод одновременно сохраняет идентичность людей и детали продуктов, такие как логотипы и текстуры, путем внедрения парной информации о человеке и продукте и использования дополнительного механизма маскированного кросс-внимания. Мы применяем 3D-шаблон тела и ограничивающие рамки продуктов для обеспечения точного управления движением, что позволяет интуитивно согласовывать жесты рук с размещением продуктов. Кроме того, структурированное текстовое кодирование используется для включения семантики на уровне категорий, что повышает 3D-согласованность при небольших вращательных изменениях между кадрами. Обучаясь на гибридном наборе данных с использованием стратегий расширения данных, наш подход превосходит современные методы в сохранении целостности идентичности как людей, так и продуктов и в генерации реалистичных демонстрационных движений. Страница проекта: https://submit2025-dream.github.io/DreamActor-H1/.
English
In e-commerce and digital marketing, generating high-fidelity human-product demonstration videos is important for effective product presentation. However, most existing frameworks either fail to preserve the identities of both humans and products or lack an understanding of human-product spatial relationships, leading to unrealistic representations and unnatural interactions. To address these challenges, we propose a Diffusion Transformer (DiT)-based framework. Our method simultaneously preserves human identities and product-specific details, such as logos and textures, by injecting paired human-product reference information and utilizing an additional masked cross-attention mechanism. We employ a 3D body mesh template and product bounding boxes to provide precise motion guidance, enabling intuitive alignment of hand gestures with product placements. Additionally, structured text encoding is used to incorporate category-level semantics, enhancing 3D consistency during small rotational changes across frames. Trained on a hybrid dataset with extensive data augmentation strategies, our approach outperforms state-of-the-art techniques in maintaining the identity integrity of both humans and products and generating realistic demonstration motions. Project page: https://submit2025-dream.github.io/DreamActor-H1/.
PDF42June 13, 2025