Forçage Mutuel : Auto-évolution à Double Mode pour la Génération Rapide de Personnages Audio-Vidéo Autorégressifs
Mutual Forcing: Dual-Mode Self-Evolution for Fast Autoregressive Audio-Video Character Generation
April 28, 2026
Auteurs: Yupeng Zhou, Lianghua Huang, Zhifan Wu, Jiabao Wang, Yupeng Shi, Biao Jiang, Daquan Zhou, Yu Liu, Ming-Ming Cheng, Qibin Hou
cs.AI
Résumé
Dans ce travail, nous proposons Mutual Forcing, un cadre pour la génération audio-vidéo autorégressive rapide avec une synchronisation audio-vidéo à long terme. Notre approche aborde deux défis majeurs : la modélisation conjointe audio-vidéo et la génération autorégressive rapide. Pour faciliter l'optimisation conjointe audio-vidéo, nous adoptons une stratégie d'entraînement en deux étapes : nous entraînons d'abord des générateurs unimodaux, puis nous les couplons en un modèle audio-vidéo unifié pour un entraînement conjoint sur des données appariées. Pour la génération en flux, nous nous demandons s'il est possible d'entraîner directement un modèle audio-vidéo causal rapide natif, au lieu de suivre les pipelines de distillation existants qui entraînent généralement d'abord un modèle bidirectionnel avant de le convertir en un générateur causal via plusieurs étapes de distillation. Notre réponse est Mutual Forcing, qui s'appuie directement sur un modèle autorégressif natif et intègre la génération en peu d'étapes et en plusieurs étapes au sein d'un seul modèle à paramètres partagés, permettant une auto-distillation et une meilleure cohérence entre l'entraînement et l'inférence. Le mode multi-étapes améliore le mode peu d'étapes via l'auto-distillation, tandis que le mode peu d'étapes génère le contexte historique durant l'entraînement pour améliorer la cohérence entraînement-inférence ; parce que les deux modes partagent les paramètres, ces deux effets se renforcent mutuellement au sein d'un seul modèle. Comparé aux approches antérieures telles que Self-Forcing, Mutual Forcing supprime le besoin d'un modèle enseignant bidirectionnel supplémentaire, supporte des longueurs de séquence d'entraînement plus flexibles, réduit la surcharge d'entraînement et permet au modèle de s'améliorer directement à partir de données appariées réelles plutôt que d'un enseignant figé. Les expériences montrent que Mutual Forcing égal ou dépasse les performances de bases de référence solides qui nécessitent environ 50 étapes d'échantillonnage, tout en n'utilisant que 4 à 8 étapes, démontrant des avantages substantiels tant en efficacité qu'en qualité. La page du projet est disponible à l'adresse https://mutualforcing.github.io.
English
In this work, we propose Mutual Forcing, a framework for fast autoregressive audio-video generation with long-horizon audio-video synchronization. Our approach addresses two key challenges: joint audio-video modeling and fast autoregressive generation. To ease joint audio-video optimization, we adopt a two-stage training strategy: we first train uni-modal generators and then couple them into a unified audio-video model for joint training on paired data. For streaming generation, we ask whether a native fast causal audio-video model can be trained directly, instead of following existing streaming distillation pipelines that typically train a bidirectional model first and then convert it into a causal generator through multiple distillation stages. Our answer is Mutual Forcing, which builds directly on native autoregressive model and integrates few-step and multi-step generation within a single weight-shared model, enabling self-distillation and improved training-inference consistency. The multi-step mode improves the few-step mode via self-distillation, while the few-step mode generates historical context during training to improve training-inference consistency; because the two modes share parameters, these two effects reinforce each other within a single model. Compared with prior approaches such as Self-Forcing, Mutual Forcing removes the need for an additional bidirectional teacher model, supports more flexible training sequence lengths, reduces training overhead, and allows the model to improve directly from real paired data rather than a fixed teacher. Experiments show that Mutual Forcing matches or surpasses strong baselines that require around 50 sampling steps while using only 4 to 8 steps, demonstrating substantial advantages in both efficiency and quality. The project page is available at https://mutualforcing.github.io.