ChatPaper.aiChatPaper

Ovi: Twin-Backbone-Cross-Modal-Fusion für die Audio-Video-Generierung

Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation

September 30, 2025
papers.authors: Chetwin Low, Weimin Wang, Calder Katyal
cs.AI

papers.abstract

Die Audio-Video-Generierung hat sich oft auf komplexe mehrstufige Architekturen oder die sequentielle Synthese von Ton und Bildern verlassen. Wir stellen Ovi vor, ein einheitliches Paradigma für die Audio-Video-Generierung, das die beiden Modalitäten als einen einzigen generativen Prozess modelliert. Durch die blockweise cross-modale Fusion von Twin-DiT-Modulen erreicht Ovi eine natürliche Synchronisation und eliminiert die Notwendigkeit separater Pipelines oder nachträglicher Ausrichtung. Um die feinkörnige multimodale Fusionsmodellierung zu erleichtern, initialisieren wir einen Audio-Turm mit einer Architektur, die der eines stark vortrainierten Video-Modells entspricht. Der Audio-Turm, der von Grund auf mit hunderttausenden Stunden Rohaudio trainiert wird, lernt, realistische Soundeffekte sowie Sprache zu erzeugen, die reiche Sprecheridentität und Emotionen vermittelt. Die Fusion wird durch das gemeinsame Training der identischen Video- und Audio-Türme mittels blockweisem Austausch von Timing (über skalierte RoPE-Embeddings) und Semantik (durch bidirektionale Cross-Attention) auf einem umfangreichen Videokorpus erreicht. Unser Modell ermöglicht filmisches Storytelling mit natürlicher Sprache und präzisen, kontextbezogenen Soundeffekten und produziert videoclips in Kinofilmqualität. Alle Demos, Code und Modellgewichte sind unter https://aaxwaz.github.io/Ovi veröffentlicht.
English
Audio-video generation has often relied on complex multi-stage architectures or sequential synthesis of sound and visuals. We introduce Ovi, a unified paradigm for audio-video generation that models the two modalities as a single generative process. By using blockwise cross-modal fusion of twin-DiT modules, Ovi achieves natural synchronization and removes the need for separate pipelines or post hoc alignment. To facilitate fine-grained multimodal fusion modeling, we initialize an audio tower with an architecture identical to that of a strong pretrained video model. Trained from scratch on hundreds of thousands of hours of raw audio, the audio tower learns to generate realistic sound effects, as well as speech that conveys rich speaker identity and emotion. Fusion is obtained by jointly training the identical video and audio towers via blockwise exchange of timing (via scaled-RoPE embeddings) and semantics (through bidirectional cross-attention) on a vast video corpus. Our model enables cinematic storytelling with natural speech and accurate, context-matched sound effects, producing movie-grade video clips. All the demos, code and model weights are published at https://aaxwaz.github.io/Ovi
PDF264October 3, 2025