OmniShow: Vereinheitlichung multimodaler Bedingungen zur Generierung von Mensch-Objekt-Interaktionsvideos

Zusammenfassung

In dieser Arbeit untersuchen wir die Generierung von Mensch-Objekt-Interaktionsvideos (HOIVG), die darauf abzielt, hochwertige Videos menschlicher Interaktionen mit Objekten auf der Grundlage von Text, Referenzbildern, Audio und Pose zu synthetisieren. Diese Aufgabe hat einen bedeutenden praktischen Wert für die Automatisierung der Inhaltserstellung in realen Anwendungen, wie z.B. E-Commerce-Demonstrationen, Kurzvideo-Produktion und interaktive Unterhaltung. Bisherige Ansätze können jedoch nicht alle diese erforderlichen Bedingungen gleichzeitig berücksichtigen. Wir stellen OmniShow vor, ein End-to-End-Framework, das für diese praktische aber anspruchsvolle Aufgabe entwickelt wurde und in der Lage ist, multimodale Bedingungen zu harmonisieren und industrieübliche Leistung zu liefern. Um den Zielkonflikt zwischen Steuerbarkeit und Qualität zu überwinden, führen wir eine einheitliche kanalweise Konditionierung für eine effiziente Einbindung von Bild- und Posendaten sowie eine gated Local-Context Attention zur präzisen Audio-Video-Synchronisation ein. Um dem Problem der Datenknappheit effektiv zu begegnen, entwickeln wir eine Decoupled-Then-Joint Trainingsstrategie, die einen mehrstufigen Trainingsprozess mit Modellzusammenführung nutzt, um heterogene Teilaufgaben-Datensätze effizient zu erschließen. Darüber hinaus schließen wir die Evaluierungslücke in diesem Bereich, indem wir HOIVG-Bench etablieren, einen speziellen und umfassenden Benchmark für HOIVG. Umfangreiche Experimente zeigen, dass OmniShow insgesamt state-of-the-art Leistung über verschiedene multimodale Konditionierungseinstellungen hinweg erreicht und damit einen soliden Standard für die aufkommende HOIVG-Aufgabe setzt.

English

In this work, we study Human-Object Interaction Video Generation (HOIVG), which aims to synthesize high-quality human-object interaction videos conditioned on text, reference images, audio, and pose. This task holds significant practical value for automating content creation in real-world applications, such as e-commerce demonstrations, short video production, and interactive entertainment. However, existing approaches fail to accommodate all these requisite conditions. We present OmniShow, an end-to-end framework tailored for this practical yet challenging task, capable of harmonizing multimodal conditions and delivering industry-grade performance. To overcome the trade-off between controllability and quality, we introduce Unified Channel-wise Conditioning for efficient image and pose injection, and Gated Local-Context Attention to ensure precise audio-visual synchronization. To effectively address data scarcity, we develop a Decoupled-Then-Joint Training strategy that leverages a multi-stage training process with model merging to efficiently harness heterogeneous sub-task datasets. Furthermore, to fill the evaluation gap in this field, we establish HOIVG-Bench, a dedicated and comprehensive benchmark for HOIVG. Extensive experiments demonstrate that OmniShow achieves overall state-of-the-art performance across various multimodal conditioning settings, setting a solid standard for the emerging HOIVG task.

OmniShow: Vereinheitlichung multimodaler Bedingungen zur Generierung von Mensch-Objekt-Interaktionsvideos

OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation

Zusammenfassung

Support