Gegenseitige Forcierung: Dual-Mode Selbstentwicklung für schnelle autoregressive Audio-Video-Charaktergenerierung

Zusammenfassung

In dieser Arbeit schlagen wir Mutual Forcing vor, einen Rahmen für die schnelle autoregressive Audio-Video-Generierung mit langfristiger Audio-Video-Synchronisation. Unser Ansatz adressiert zwei zentrale Herausforderungen: gemeinsame Audio-Video-Modellierung und schnelle autoregressive Generierung. Um die gemeinsame Audio-Video-Optimierung zu erleichtern, verwenden wir eine zweistufige Trainingsstrategie: Zuerst trainieren wir uni-modale Generatoren und koppeln diese dann zu einem vereinheitlichten Audio-Video-Modell für das gemeinsame Training auf gepaarten Daten. Für die Streaming-Generierung stellen wir die Frage, ob ein natives, schnelles kausales Audio-Video-Modell direkt trainiert werden kann, anstatt bestehenden Streaming-Distillations-Pipelines zu folgen, die typischerweise zuerst ein bidirektionales Modell trainieren und es dann durch mehrere Distillationsstufen in einen kausalen Generator umwandeln. Unsere Antwort ist Mutual Forcing, das direkt auf einem nativen autoregressiven Modell aufbaut und Wenigschritt- und Mehrschritt-Generierung innerhalb eines einzigen gewichteteilten Modells integriert, was Selbst-Distillation und eine verbesserte Trainings-Inferenz-Konsistenz ermöglicht. Der Mehrschritt-Modus verbessert den Wenigschritt-Modus durch Selbst-Distillation, während der Wenigschritt-Modus während des Trainings historischen Kontext generiert, um die Trainings-Inferenz-Konsistenz zu verbessern; da die beiden Modi Parameter teilen, verstärken sich diese beiden Effekte innerhalb eines einzigen Modells gegenseitig. Im Vergleich zu früheren Ansätzen wie Self-Forcing eliminiert Mutual Forcing die Notwendigkeit eines zusätzlichen bidirektionalen Lehrermodells, unterstützt flexiblere Trainingssequenzlängen, reduziert den Trainingsaufwand und ermöglicht es dem Modell, sich direkt aus echten gepaarten Daten anstatt von einem festen Lehrer zu verbessern. Experimente zeigen, dass Mutual Forcing starke Baseline-Modelle, die etwa 50 Abtastschritte benötigen, bei Verwendung von nur 4 bis 8 Schritten erreicht oder übertrifft, was erhebliche Vorteile sowohl in Effizienz als auch Qualität demonstriert. Die Projektseite ist unter https://mutualforcing.github.io verfügbar.

English

In this work, we propose Mutual Forcing, a framework for fast autoregressive audio-video generation with long-horizon audio-video synchronization. Our approach addresses two key challenges: joint audio-video modeling and fast autoregressive generation. To ease joint audio-video optimization, we adopt a two-stage training strategy: we first train uni-modal generators and then couple them into a unified audio-video model for joint training on paired data. For streaming generation, we ask whether a native fast causal audio-video model can be trained directly, instead of following existing streaming distillation pipelines that typically train a bidirectional model first and then convert it into a causal generator through multiple distillation stages. Our answer is Mutual Forcing, which builds directly on native autoregressive model and integrates few-step and multi-step generation within a single weight-shared model, enabling self-distillation and improved training-inference consistency. The multi-step mode improves the few-step mode via self-distillation, while the few-step mode generates historical context during training to improve training-inference consistency; because the two modes share parameters, these two effects reinforce each other within a single model. Compared with prior approaches such as Self-Forcing, Mutual Forcing removes the need for an additional bidirectional teacher model, supports more flexible training sequence lengths, reduces training overhead, and allows the model to improve directly from real paired data rather than a fixed teacher. Experiments show that Mutual Forcing matches or surpasses strong baselines that require around 50 sampling steps while using only 4 to 8 steps, demonstrating substantial advantages in both efficiency and quality. The project page is available at https://mutualforcing.github.io.

Gegenseitige Forcierung: Dual-Mode Selbstentwicklung für schnelle autoregressive Audio-Video-Charaktergenerierung

Mutual Forcing: Dual-Mode Self-Evolution for Fast Autoregressive Audio-Video Character Generation

Zusammenfassung

Support