Forzamiento Mutuo: Autoevolución Bimodal para la Generación Rápida de Personajes Audio-Visuales Autoregresivos
Mutual Forcing: Dual-Mode Self-Evolution for Fast Autoregressive Audio-Video Character Generation
April 28, 2026
Autores: Yupeng Zhou, Lianghua Huang, Zhifan Wu, Jiabao Wang, Yupeng Shi, Biao Jiang, Daquan Zhou, Yu Liu, Ming-Ming Cheng, Qibin Hou
cs.AI
Resumen
En este trabajo, proponemos Mutual Forcing, un marco para la generación rápida autoregresiva de audio-video con sincronización audio-video de horizonte largo. Nuestro enfoque aborda dos desafíos clave: el modelado conjunto de audio-video y la generación autoregresiva rápida. Para facilitar la optimización conjunta de audio-video, adoptamos una estrategia de entrenamiento en dos etapas: primero entrenamos generadores unimodales y luego los acoplamos en un modelo unificado de audio-video para el entrenamiento conjunto con datos emparejados. Para la generación en flujo continuo (streaming), nos preguntamos si se puede entrenar directamente un modelo causal rápido nativo de audio-video, en lugar de seguir las pipelines de destilación existentes que normalmente entrenan primero un modelo bidireccional y luego lo convierten en un generador causal a través de múltiples etapas de destilación. Nuestra respuesta es Mutual Forcing, que se construye directamente sobre un modelo autoregresivo nativo e integra la generación en pocos pasos y en múltiples pasos dentro de un único modelo con pesos compartidos, permitiendo la auto-destilación y una mejor consistencia entre el entrenamiento y la inferencia. El modo de múltiples pasos mejora el modo de pocos pasos mediante auto-destilación, mientras que el modo de pocos pasos genera contexto histórico durante el entrenamiento para mejorar la consistencia entrenamiento-inferencia; dado que los dos modos comparten parámetros, estos dos efectos se refuerzan mutuamente dentro de un único modelo. En comparación con enfoques anteriores como Self-Forcing, Mutual Forcing elimina la necesidad de un modelo maestro bidireccional adicional, admite longitudes de secuencia de entrenamiento más flexibles, reduce la sobrecarga del entrenamiento y permite que el modelo mejore directamente a partir de datos emparejados reales en lugar de hacerlo a partir de un maestro fijo. Los experimentos muestran que Mutual Forcing iguala o supera a líneas base sólidas que requieren alrededor de 50 pasos de muestreo mientras utiliza solo de 4 a 8 pasos, demostrando ventajas sustanciales tanto en eficiencia como en calidad. La página del proyecto está disponible en https://mutualforcing.github.io.
English
In this work, we propose Mutual Forcing, a framework for fast autoregressive audio-video generation with long-horizon audio-video synchronization. Our approach addresses two key challenges: joint audio-video modeling and fast autoregressive generation. To ease joint audio-video optimization, we adopt a two-stage training strategy: we first train uni-modal generators and then couple them into a unified audio-video model for joint training on paired data. For streaming generation, we ask whether a native fast causal audio-video model can be trained directly, instead of following existing streaming distillation pipelines that typically train a bidirectional model first and then convert it into a causal generator through multiple distillation stages. Our answer is Mutual Forcing, which builds directly on native autoregressive model and integrates few-step and multi-step generation within a single weight-shared model, enabling self-distillation and improved training-inference consistency. The multi-step mode improves the few-step mode via self-distillation, while the few-step mode generates historical context during training to improve training-inference consistency; because the two modes share parameters, these two effects reinforce each other within a single model. Compared with prior approaches such as Self-Forcing, Mutual Forcing removes the need for an additional bidirectional teacher model, supports more flexible training sequence lengths, reduces training overhead, and allows the model to improve directly from real paired data rather than a fixed teacher. Experiments show that Mutual Forcing matches or surpasses strong baselines that require around 50 sampling steps while using only 4 to 8 steps, demonstrating substantial advantages in both efficiency and quality. The project page is available at https://mutualforcing.github.io.