Forçamento Mútuo: Auto-Evolução em Modo Duplo para Geração Rápida de Personagens Áudio-Visuais Autoregressivos

Resumo

Neste trabalho, propomos o Mutual Forcing, uma estrutura para geração áudio-vídeo autoregressiva rápida com sincronização áudio-vídeo de longo horizonte. Nossa abordagem aborda dois desafios principais: modelagem conjunta áudio-vídeo e geração autoregressiva rápida. Para facilitar a otimização conjunta áudio-vídeo, adotamos uma estratégia de treinamento em dois estágios: primeiro treinamos geradores unimodais e depois os acoplamos em um modelo unificado áudio-vídeo para treinamento conjunto com dados pareados. Para geração em fluxo contínuo, investigamos se um modelo causal áudio-vídeo nativamente rápido pode ser treinado diretamente, em vez de seguir os pipelines de destilação existentes que normalmente treinam primeiro um modelo bidirecional e depois o convertem em um gerador causal através de múltiplos estágios de destilação. Nossa resposta é o Mutual Forcing, que se baseia diretamente em modelos autoregressivos nativos e integra geração com poucos passos e múltiplos passos dentro de um único modelo com pesos compartilhados, permitindo auto-destilação e melhor consistência entre treinamento e inferência. O modo de múltiplos passos melhora o modo de poucos passos via auto-destilação, enquanto o modo de poucos passos gera contexto histórico durante o treinamento para melhorar a consistência treinamento-inferência; como os dois modos compartilham parâmetros, esses dois efeitos se reforçam mutuamente dentro de um único modelo. Comparado com abordagens anteriores como o Self-Forcing, o Mutual Forcing elimina a necessidade de um modelo professor bidirecional adicional, suporta comprimentos de sequência de treinamento mais flexíveis, reduz a sobrecarga de treinamento e permite que o modelo melhore diretamente a partir de dados pareados reais em vez de um professor fixo. Experimentos mostram que o Mutual Forcing iguala ou supera linhas de base fortes que exigem cerca de 50 passos de amostragem enquanto utiliza apenas 4 a 8 passos, demonstrando vantagens substanciais em eficiência e qualidade. A página do projeto está disponível em https://mutualforcing.github.io.

English

In this work, we propose Mutual Forcing, a framework for fast autoregressive audio-video generation with long-horizon audio-video synchronization. Our approach addresses two key challenges: joint audio-video modeling and fast autoregressive generation. To ease joint audio-video optimization, we adopt a two-stage training strategy: we first train uni-modal generators and then couple them into a unified audio-video model for joint training on paired data. For streaming generation, we ask whether a native fast causal audio-video model can be trained directly, instead of following existing streaming distillation pipelines that typically train a bidirectional model first and then convert it into a causal generator through multiple distillation stages. Our answer is Mutual Forcing, which builds directly on native autoregressive model and integrates few-step and multi-step generation within a single weight-shared model, enabling self-distillation and improved training-inference consistency. The multi-step mode improves the few-step mode via self-distillation, while the few-step mode generates historical context during training to improve training-inference consistency; because the two modes share parameters, these two effects reinforce each other within a single model. Compared with prior approaches such as Self-Forcing, Mutual Forcing removes the need for an additional bidirectional teacher model, supports more flexible training sequence lengths, reduces training overhead, and allows the model to improve directly from real paired data rather than a fixed teacher. Experiments show that Mutual Forcing matches or surpasses strong baselines that require around 50 sampling steps while using only 4 to 8 steps, demonstrating substantial advantages in both efficiency and quality. The project page is available at https://mutualforcing.github.io.

Forçamento Mútuo: Auto-Evolução em Modo Duplo para Geração Rápida de Personagens Áudio-Visuais Autoregressivos

Mutual Forcing: Dual-Mode Self-Evolution for Fast Autoregressive Audio-Video Character Generation

Resumo

Support