OmniShow: Unificazione di Condizioni Multimodali per la Generazione di Video di Interazione Uomo-Oggetto
OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation
April 13, 2026
Autori: Donghao Zhou, Guisheng Liu, Hao Yang, Jiatong Li, Jingyu Lin, Xiaohu Huang, Yichen Liu, Xin Gao, Cunjian Chen, Shilei Wen, Chi-Wing Fu, Pheng-Ann Heng
cs.AI
Abstract
In questo lavoro, studiamo la Generazione di Video di Interazione Uomo-Oggetto (HOIVG), che mira a sintetizzare video di alta qualità di interazioni uomo-oggetto condizionati da testo, immagini di riferimento, audio e postura. Questo compito ha un notevole valore pratico per l'automazione della creazione di contenuti in applicazioni reali, come dimostrazioni di e-commerce, produzione di video brevi e intrattenimento interattivo. Tuttavia, gli approcci esistenti non riescono a soddisfare tutte queste condizioni necessarie. Presentiamo OmniShow, un framework end-to-end progettato per questo compito pratico ma impegnativo, in grado di armonizzare condizioni multimodali e fornire prestazioni di livello industriale. Per superare il compromesso tra controllabilità e qualità, introduciamo il Condizionamento Unificato per Canale per un'efficiente iniezione di immagini e postura, e l'Attenzione con Cancello al Contesto Locale per garantire una precisa sincronizzazione audio-video. Per affrontare efficacemente la scarsità di dati, sviluppiamo una strategia di Addestramento Disaccoppiato-Poi-Congiunto che sfrutta un processo di training multi-stadio con fusione di modelli per utilizzare efficientemente dataset eterogenei di sotto-compiti. Inoltre, per colmare il divario valutativo in questo campo, istituiamo HOIVG-Bench, un benchmark dedicato e completo per HOIVG. Esperimenti estensivi dimostrano che OmniShow raggiunge prestazioni complessive all'avanguardia in varie configurazioni di condizionamento multimodale, stabilendo uno standard solido per il nascente compito HOIVG.
English
In this work, we study Human-Object Interaction Video Generation (HOIVG), which aims to synthesize high-quality human-object interaction videos conditioned on text, reference images, audio, and pose. This task holds significant practical value for automating content creation in real-world applications, such as e-commerce demonstrations, short video production, and interactive entertainment. However, existing approaches fail to accommodate all these requisite conditions. We present OmniShow, an end-to-end framework tailored for this practical yet challenging task, capable of harmonizing multimodal conditions and delivering industry-grade performance. To overcome the trade-off between controllability and quality, we introduce Unified Channel-wise Conditioning for efficient image and pose injection, and Gated Local-Context Attention to ensure precise audio-visual synchronization. To effectively address data scarcity, we develop a Decoupled-Then-Joint Training strategy that leverages a multi-stage training process with model merging to efficiently harness heterogeneous sub-task datasets. Furthermore, to fill the evaluation gap in this field, we establish HOIVG-Bench, a dedicated and comprehensive benchmark for HOIVG. Extensive experiments demonstrate that OmniShow achieves overall state-of-the-art performance across various multimodal conditioning settings, setting a solid standard for the emerging HOIVG task.