Взаимное Принуждение: Двухрежимная Самоэволюция для Быстрой Авторегрессивной Генерации Аудиовизуальных Персонажей

Аннотация

В данной работе мы предлагаем Mutual Forcing — фреймворк для быстрого авторегрессионного аудиовизуального синтеза с долгосрочной синхронизацией аудио и видео. Наш подход решает две ключевые задачи: совместное моделирование аудио и видео и быстрое авторегрессионное генерирование. Для упрощения совместной аудиовизуальной оптимизации мы применяем двухэтапную стратегию обучения: сначала обучаем унимодальные генераторы, а затем объединяем их в единую аудиовизуальную модель для совместного обучения на парных данных. Для потокового генерирования мы исследуем, можно ли напрямую обучить нативно быструю каузальную аудиовизуальную модель, вместо следования существующим конвейерам потоковой дистилляции, которые обычно сначала обучают двунаправленную модель, а затем преобразуют её в каузальный генератор через несколько этапов дистилляции. Нашим решением является Mutual Forcing, который напрямую строится на нативной авторегрессионной модели и интегрирует малошаговый и многошаговый режимы генерации в рамках единой модели с общими весами, обеспечивая самодистилляцию и улучшенную согласованность обучения и вывода. Многошаговый режим улучшает малошаговый через самодистилляцию, в то время как малошаговый режим генерирует исторический контекст во время обучения для повышения согласованности обучения и вывода; поскольку оба режима используют общие параметры, эти эффекты взаимно усиливаются в рамках одной модели. По сравнению с предыдущими подходами, такими как Self-Forcing, Mutual Forcing устраняет необходимость в дополнительной двунаправленной модели-учителе, поддерживает более гибкие длины обучающих последовательностей, снижает вычислительные затраты на обучение и позволяет модели улучшаться напрямую на реальных парных данных, а не на фиксированном учителе. Эксперименты показывают, что Mutual Forcing достигает или превосходит результаты сильных базовых методов, требующих около 50 шагов семплирования, используя всего 4–8 шагов, что демонстрирует существенные преимущества как в эффективности, так и в качестве. Страница проекта доступна по адресу https://mutualforcing.github.io.

English

In this work, we propose Mutual Forcing, a framework for fast autoregressive audio-video generation with long-horizon audio-video synchronization. Our approach addresses two key challenges: joint audio-video modeling and fast autoregressive generation. To ease joint audio-video optimization, we adopt a two-stage training strategy: we first train uni-modal generators and then couple them into a unified audio-video model for joint training on paired data. For streaming generation, we ask whether a native fast causal audio-video model can be trained directly, instead of following existing streaming distillation pipelines that typically train a bidirectional model first and then convert it into a causal generator through multiple distillation stages. Our answer is Mutual Forcing, which builds directly on native autoregressive model and integrates few-step and multi-step generation within a single weight-shared model, enabling self-distillation and improved training-inference consistency. The multi-step mode improves the few-step mode via self-distillation, while the few-step mode generates historical context during training to improve training-inference consistency; because the two modes share parameters, these two effects reinforce each other within a single model. Compared with prior approaches such as Self-Forcing, Mutual Forcing removes the need for an additional bidirectional teacher model, supports more flexible training sequence lengths, reduces training overhead, and allows the model to improve directly from real paired data rather than a fixed teacher. Experiments show that Mutual Forcing matches or surpasses strong baselines that require around 50 sampling steps while using only 4 to 8 steps, demonstrating substantial advantages in both efficiency and quality. The project page is available at https://mutualforcing.github.io.

Взаимное Принуждение: Двухрежимная Самоэволюция для Быстрой Авторегрессивной Генерации Аудиовизуальных Персонажей

Mutual Forcing: Dual-Mode Self-Evolution for Fast Autoregressive Audio-Video Character Generation

Аннотация

Support