ChatPaper.aiChatPaper

Mutuale Forzatura: Auto-evoluzione a Doppia Modalità per la Generazione Autoregressiva Rapida di Personaggi Audio-Video

Mutual Forcing: Dual-Mode Self-Evolution for Fast Autoregressive Audio-Video Character Generation

April 28, 2026
Autori: Yupeng Zhou, Lianghua Huang, Zhifan Wu, Jiabao Wang, Yupeng Shi, Biao Jiang, Daquan Zhou, Yu Liu, Ming-Ming Cheng, Qibin Hou
cs.AI

Abstract

In questo lavoro, proponiamo Mutual Forcing, un framework per la generazione autoregressiva rapida di contenuti audio-video con sincronizzazione audio-video a lungo orizzonte. Il nostro approccio affronta due sfide chiave: la modellizzazione congiunta audio-video e la generazione autoregressiva veloce. Per facilitare l'ottimizzazione congiunta audio-video, adottiamo una strategia di addestramento in due fasi: addestriamo prima generatori unimodali e poi li accoppiamo in un modello audio-video unificato per l'addestramento congiunto su dati accoppiati. Per la generazione in streaming, ci chiediamo se un modello audio-video causale rapido nativo possa essere addestrato direttamente, invece di seguire le pipeline di distillazione per lo streaming esistenti che tipicamente addestrano prima un modello bidirezionale per poi convertirlo in un generatore causale attraverso molteplici stadi di distillazione. La nostra risposta è Mutual Forcing, che si basa direttamente su un modello autoregressivo nativo e integra la generazione a pochi passi e a più passi all'interno di un unico modello a pesi condivisi, consentendo l'auto-distillazione e un migliore allineamento addestramento-inferenza. La modalità multi-passo migliora la modalità a pochi passi tramite auto-distillazione, mentre la modalità a pochi passi genera il contesto storico durante l'addestramento per migliorare la coerenza addestramento-inferenza; poiché le due modalità condividono i parametri, questi due effetti si rafforzano a vicenda all'interno di un unico modello. Rispetto ad approcci precedenti come Self-Forcing, Mutual Forcing elimina la necessità di un ulteriore modello insegnante bidirezionale, supporta lunghezze di sequenza di addestramento più flessibili, riduce il sovraccarico computazionale di addestramento e permette al modello di migliorare direttamente da dati accoppiati reali piuttosto che da un insegnante fisso. Gli esperimenti mostrano che Mutual Forcing eguaglia o supera baseline robuste che richiedono circa 50 passi di campionamento mentre utilizza solo 4-8 passi, dimostrando vantaggi sostanziali sia in efficienza che in qualità. La pagina del progetto è disponibile all'indirizzo https://mutualforcing.github.io.
English
In this work, we propose Mutual Forcing, a framework for fast autoregressive audio-video generation with long-horizon audio-video synchronization. Our approach addresses two key challenges: joint audio-video modeling and fast autoregressive generation. To ease joint audio-video optimization, we adopt a two-stage training strategy: we first train uni-modal generators and then couple them into a unified audio-video model for joint training on paired data. For streaming generation, we ask whether a native fast causal audio-video model can be trained directly, instead of following existing streaming distillation pipelines that typically train a bidirectional model first and then convert it into a causal generator through multiple distillation stages. Our answer is Mutual Forcing, which builds directly on native autoregressive model and integrates few-step and multi-step generation within a single weight-shared model, enabling self-distillation and improved training-inference consistency. The multi-step mode improves the few-step mode via self-distillation, while the few-step mode generates historical context during training to improve training-inference consistency; because the two modes share parameters, these two effects reinforce each other within a single model. Compared with prior approaches such as Self-Forcing, Mutual Forcing removes the need for an additional bidirectional teacher model, supports more flexible training sequence lengths, reduces training overhead, and allows the model to improve directly from real paired data rather than a fixed teacher. Experiments show that Mutual Forcing matches or surpasses strong baselines that require around 50 sampling steps while using only 4 to 8 steps, demonstrating substantial advantages in both efficiency and quality. The project page is available at https://mutualforcing.github.io.
PDF132April 30, 2026