OmniShow: Унификация мультимодальных условий для генерации видео взаимодействия человека и объекта

Аннотация

В данной работе мы исследуем генерацию видео взаимодействия человека с объектом (HOIVG), целью которой является синтез высококачественных видеороликов такого взаимодействия на основе текстовых описаний, эталонных изображений, аудиоданных и поз. Эта задача имеет значительную практическую ценность для автоматизации создания контента в реальных приложениях, таких как демонстрации в электронной коммерции, производство коротких видео и интерактивные развлечения. Однако существующие подходы не способны учитывать все необходимые условия. Мы представляем OmniShow — сквозную архитектуру, разработанную для этой практичной, но сложной задачи, которая способна гармонизировать мультимодальные условия и обеспечивать производительность промышленного уровня. Чтобы преодолеть компромисс между управляемостью и качеством, мы вводим унифицированное покомпонентное условное форматирование для эффективного внедрения изображений и данных о позах, а также механизм внимания с управляемым локальным контекстом для обеспечения точной аудиовизуальной синхронизации. Для эффективного решения проблемы недостатка данных мы разрабатываем стратегию раздельного, а затем совместного обучения, которая использует многоэтапный процесс обучения со слиянием моделей для эффективного задействования разнородных наборов данных подзадач. Кроме того, чтобы восполнить пробел в оценке в этой области, мы создали HOIVG-Bench — специализированный и всеобъемлющий эталонный тест для HOIVG. Многочисленные эксперименты демонстрируют, что OmniShow достигает наилучших общих показателей в различных мультимодальных условиях, устанавливая надежный стандарт для новой задачи HOIVG.

English

In this work, we study Human-Object Interaction Video Generation (HOIVG), which aims to synthesize high-quality human-object interaction videos conditioned on text, reference images, audio, and pose. This task holds significant practical value for automating content creation in real-world applications, such as e-commerce demonstrations, short video production, and interactive entertainment. However, existing approaches fail to accommodate all these requisite conditions. We present OmniShow, an end-to-end framework tailored for this practical yet challenging task, capable of harmonizing multimodal conditions and delivering industry-grade performance. To overcome the trade-off between controllability and quality, we introduce Unified Channel-wise Conditioning for efficient image and pose injection, and Gated Local-Context Attention to ensure precise audio-visual synchronization. To effectively address data scarcity, we develop a Decoupled-Then-Joint Training strategy that leverages a multi-stage training process with model merging to efficiently harness heterogeneous sub-task datasets. Furthermore, to fill the evaluation gap in this field, we establish HOIVG-Bench, a dedicated and comprehensive benchmark for HOIVG. Extensive experiments demonstrate that OmniShow achieves overall state-of-the-art performance across various multimodal conditioning settings, setting a solid standard for the emerging HOIVG task.

OmniShow: Унификация мультимодальных условий для генерации видео взаимодействия человека и объекта

OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation

Аннотация

Support