OmniShow : Unification des conditions multimodales pour la génération de vidéos d'interaction humain-objet

Résumé

Dans ce travail, nous étudions la génération de vidéos d'interaction humain-objet (HOIVG), qui vise à synthétiser des vidéos d'interaction de haute qualité conditionnées par du texte, des images de référence, de l'audio et des poses. Cette tâche revêt une valeur pratique significative pour l'automatisation de la création de contenu dans des applications réelles, telles que les démonstrations de commerce électronique, la production de vidéos courtes et le divertissement interactif. Cependant, les approches existantes ne parviennent pas à prendre en compte toutes ces conditions requises. Nous présentons OmniShow, un cadre de bout en bout conçu pour cette tâche pratique mais difficile, capable d'harmoniser des conditions multimodales et d'offrir des performances de qualité industrielle. Pour surmonter le compromis entre la contrôlabilité et la qualité, nous introduisons un Conditionnement Unifié par Canaux pour une injection efficace des images et des poses, et une Attention Locale à Porte pour garantir une synchronisation audio-visuelle précise. Pour répondre efficacement à la pénurie de données, nous développons une stratégie d'Entraînement Dissocié puis Conjoint qui exploite un processus d'entraînement multi-étapes avec fusion de modèles pour tirer parti de manière efficiente d'ensembles de données hétérogènes de sous-tâches. De plus, pour combler le déficit d'évaluation dans ce domaine, nous établissons HOIVG-Bench, un benchmark dédié et complet pour la HOIVG. Des expériences approfondies démontrent qu'OmniShow obtient des performances globales de pointe dans divers cadres de conditionnement multimodal, établissant une norme solide pour la tâche émergente de HOIVG.

English

In this work, we study Human-Object Interaction Video Generation (HOIVG), which aims to synthesize high-quality human-object interaction videos conditioned on text, reference images, audio, and pose. This task holds significant practical value for automating content creation in real-world applications, such as e-commerce demonstrations, short video production, and interactive entertainment. However, existing approaches fail to accommodate all these requisite conditions. We present OmniShow, an end-to-end framework tailored for this practical yet challenging task, capable of harmonizing multimodal conditions and delivering industry-grade performance. To overcome the trade-off between controllability and quality, we introduce Unified Channel-wise Conditioning for efficient image and pose injection, and Gated Local-Context Attention to ensure precise audio-visual synchronization. To effectively address data scarcity, we develop a Decoupled-Then-Joint Training strategy that leverages a multi-stage training process with model merging to efficiently harness heterogeneous sub-task datasets. Furthermore, to fill the evaluation gap in this field, we establish HOIVG-Bench, a dedicated and comprehensive benchmark for HOIVG. Extensive experiments demonstrate that OmniShow achieves overall state-of-the-art performance across various multimodal conditioning settings, setting a solid standard for the emerging HOIVG task.

OmniShow : Unification des conditions multimodales pour la génération de vidéos d'interaction humain-objet

OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation

Résumé

Support