Wederzijdse Aandrijving: Dual-Mode Zelf-Evolutie voor Snel Autoregressief Audio-Video Karaktergeneratie
Mutual Forcing: Dual-Mode Self-Evolution for Fast Autoregressive Audio-Video Character Generation
April 28, 2026
Auteurs: Yupeng Zhou, Lianghua Huang, Zhifan Wu, Jiabao Wang, Yupeng Shi, Biao Jiang, Daquan Zhou, Yu Liu, Ming-Ming Cheng, Qibin Hou
cs.AI
Samenvatting
In dit werk stellen we Mutual Forcing voor, een raamwerk voor snelle autoregressieve audio-videogeneratie met een lange-termijn audio-video-synchronisatie. Onze aanpak adresseert twee belangrijke uitdagingen: gezamenlijke audio-video-modellering en snelle autoregressieve generatie. Om de gezamenlijke audio-video-optimalisatie te vergemakkelijken, hanteren we een tweefasen-trainingsstrategie: eerst trainen we unimodale generatoren en koppelen deze vervolgens in een verenigd audio-videomodel voor gezamenlijke training op gepaarde data. Voor streaminggeneratie onderzoeken we of een native, snelle causaal audio-videomodel direct getraind kan worden, in plaats van de bestaande streamingdistillatiepijplijnen te volgen die typisch eerst een bidirectioneel model trainen en dit vervolgens via meerdere distillatiefasen omzetten in een causale generator. Ons antwoord is Mutual Forcing, dat direct voortbouwt op een native autoregressief model en weinestaps- en meerstapsgeneratie integreert binnen een enkel gewichtsgedeeld model, waardoor zelfdistillatie en verbeterde consistentie tussen training en inferentie mogelijk worden. De meerstapsmodus verbetert de weinestapsmodus via zelfdistillatie, terwijl de weinestapsmodus historische context genereert tijdens de training om de consistentie tussen training en inferentie te verbeteren; omdat de twee modi parameters delen, versterken deze twee effecten elkaar binnen een enkel model. In vergelijking met eerdere benaderingen zoals Self-Forcing, elimineert Mutual Forcing de noodzaak van een extra bidirectioneel leraarmodel, ondersteunt het flexibelere trainingssequentielengtes, vermindert het de trainingsoverhead en stelt het het model in staat om direct te verbeteren vanuit echte gepaarde data in plaats van een vaste leraar. Experimenten tonen aan dat Mutual Forcing evenaart of sterke baselinebenaderingen overtreft die ongeveer 50 samplingstappen vereisen, terwijl het zelf slechts 4 tot 8 stappen gebruikt, wat aanzienlijke voordelen demonstreert in zowel efficiëntie als kwaliteit. De projectpagina is beschikbaar op https://mutualforcing.github.io.
English
In this work, we propose Mutual Forcing, a framework for fast autoregressive audio-video generation with long-horizon audio-video synchronization. Our approach addresses two key challenges: joint audio-video modeling and fast autoregressive generation. To ease joint audio-video optimization, we adopt a two-stage training strategy: we first train uni-modal generators and then couple them into a unified audio-video model for joint training on paired data. For streaming generation, we ask whether a native fast causal audio-video model can be trained directly, instead of following existing streaming distillation pipelines that typically train a bidirectional model first and then convert it into a causal generator through multiple distillation stages. Our answer is Mutual Forcing, which builds directly on native autoregressive model and integrates few-step and multi-step generation within a single weight-shared model, enabling self-distillation and improved training-inference consistency. The multi-step mode improves the few-step mode via self-distillation, while the few-step mode generates historical context during training to improve training-inference consistency; because the two modes share parameters, these two effects reinforce each other within a single model. Compared with prior approaches such as Self-Forcing, Mutual Forcing removes the need for an additional bidirectional teacher model, supports more flexible training sequence lengths, reduces training overhead, and allows the model to improve directly from real paired data rather than a fixed teacher. Experiments show that Mutual Forcing matches or surpasses strong baselines that require around 50 sampling steps while using only 4 to 8 steps, demonstrating substantial advantages in both efficiency and quality. The project page is available at https://mutualforcing.github.io.