OmniShow: Unificación de Condiciones Multimodales para la Generación de Vídeos de Interacción Humano-Objeto

Resumen

En este trabajo, estudiamos la Generación de Vídeos de Interacción Humano-Objeto (HOIVG), que tiene como objetivo sintetizar vídeos de interacción humano-objeto de alta calidad condicionados por texto, imágenes de referencia, audio y posturas. Esta tarea posee un valor práctico significativo para automatizar la creación de contenidos en aplicaciones del mundo real, como demostraciones de comercio electrónico, producción de vídeos cortos y entretenimiento interactivo. Sin embargo, los enfoques existentes no logran acomodar todas estas condiciones necesarias. Presentamos OmniShow, un marco de trabajo integral diseñado para esta tarea práctica pero desafiante, capaz de armonizar condiciones multimodales y ofrecer un rendimiento de grado industrial. Para superar la disyuntiva entre controlabilidad y calidad, introducimos el Acondicionamiento Unificado por Canales para una inyección eficiente de imágenes y posturas, y la Atención con Compuerta al Contexto Local para garantizar una sincronización audiovisual precisa. Para abordar eficazmente la escasez de datos, desarrollamos una estrategia de Entrenamiento Disociado y Posteriormente Conjunto que aprovecha un proceso de entrenamiento multietapa con fusión de modelos para utilizar eficientemente conjuntos de datos heterogéneos de subtareas. Además, para llenar el vacío de evaluación en este campo, establecemos HOIVG-Bench, un punto de referencia dedicado y exhaustivo para HOIVG. Experimentos exhaustivos demuestran que OmniShow logra un rendimiento general de vanguardia en varios entornos de acondicionamiento multimodal, estableciendo un sólido estándar para la emergente tarea de HOIVG.

English

In this work, we study Human-Object Interaction Video Generation (HOIVG), which aims to synthesize high-quality human-object interaction videos conditioned on text, reference images, audio, and pose. This task holds significant practical value for automating content creation in real-world applications, such as e-commerce demonstrations, short video production, and interactive entertainment. However, existing approaches fail to accommodate all these requisite conditions. We present OmniShow, an end-to-end framework tailored for this practical yet challenging task, capable of harmonizing multimodal conditions and delivering industry-grade performance. To overcome the trade-off between controllability and quality, we introduce Unified Channel-wise Conditioning for efficient image and pose injection, and Gated Local-Context Attention to ensure precise audio-visual synchronization. To effectively address data scarcity, we develop a Decoupled-Then-Joint Training strategy that leverages a multi-stage training process with model merging to efficiently harness heterogeneous sub-task datasets. Furthermore, to fill the evaluation gap in this field, we establish HOIVG-Bench, a dedicated and comprehensive benchmark for HOIVG. Extensive experiments demonstrate that OmniShow achieves overall state-of-the-art performance across various multimodal conditioning settings, setting a solid standard for the emerging HOIVG task.

OmniShow: Unificación de Condiciones Multimodales para la Generación de Vídeos de Interacción Humano-Objeto

OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation

Resumen

Support