ChatPaper.aiChatPaper

Self-Forcing++: На пути к созданию высококачественных видеороликов продолжительностью в минуты

Self-Forcing++: Towards Minute-Scale High-Quality Video Generation

October 2, 2025
Авторы: Justin Cui, Jie Wu, Ming Li, Tao Yang, Xiaojie Li, Rui Wang, Andrew Bai, Yuanhao Ban, Cho-Jui Hsieh
cs.AI

Аннотация

Диффузионные модели произвели революцию в генерации изображений и видео, достигнув беспрецедентного визуального качества. Однако их зависимость от архитектур трансформеров влечет за собой чрезмерно высокие вычислительные затраты, особенно при генерации длинных видео. В последних работах исследуются авторегрессивные подходы для генерации длинных видео, как правило, путем дистилляции знаний из моделей-учителей, работающих с короткими временными промежутками. Тем не менее, учитывая, что модели-учителя не способны синтезировать длинные видео, экстраполяция моделей-учеников за пределы их обучающего горизонта часто приводит к значительному ухудшению качества, вызванному накоплением ошибок в непрерывном латентном пространстве. В данной статье мы предлагаем простой, но эффективный подход для смягчения ухудшения качества при генерации длинных видео, не требующий контроля со стороны моделей-учителей, обученных на длинных видео, или повторного обучения на наборах данных с длинными видео. Наш подход основан на использовании богатых знаний моделей-учителей для предоставления руководства модели-ученику через сегменты, извлеченные из самостоятельно сгенерированных длинных видео. Наш метод сохраняет временную согласованность при увеличении длины видео до 20 раз по сравнению с возможностями модели-учителя, избегая таких распространенных проблем, как переэкспонирование и накопление ошибок, без необходимости повторного вычисления перекрывающихся кадров, как в предыдущих методах. При увеличении вычислительных ресурсов наш метод демонстрирует способность генерировать видео длительностью до 4 минут и 15 секунд, что эквивалентно 99,9% максимальной длины, поддерживаемой позиционным кодированием базовой модели, и более чем в 50 раз длиннее, чем у базовой модели. Эксперименты на стандартных бенчмарках и нашем улучшенном бенчмарке показывают, что наш подход значительно превосходит базовые методы как по качеству, так и по согласованности. Демонстрация наших длинных видео доступна по ссылке: https://self-forcing-plus-plus.github.io/
English
Diffusion models have revolutionized image and video generation, achieving unprecedented visual quality. However, their reliance on transformer architectures incurs prohibitively high computational costs, particularly when extending generation to long videos. Recent work has explored autoregressive formulations for long video generation, typically by distilling from short-horizon bidirectional teachers. Nevertheless, given that teacher models cannot synthesize long videos, the extrapolation of student models beyond their training horizon often leads to pronounced quality degradation, arising from the compounding of errors within the continuous latent space. In this paper, we propose a simple yet effective approach to mitigate quality degradation in long-horizon video generation without requiring supervision from long-video teachers or retraining on long video datasets. Our approach centers on exploiting the rich knowledge of teacher models to provide guidance for the student model through sampled segments drawn from self-generated long videos. Our method maintains temporal consistency while scaling video length by up to 20x beyond teacher's capability, avoiding common issues such as over-exposure and error-accumulation without recomputing overlapping frames like previous methods. When scaling up the computation, our method shows the capability of generating videos up to 4 minutes and 15 seconds, equivalent to 99.9% of the maximum span supported by our base model's position embedding and more than 50x longer than that of our baseline model. Experiments on standard benchmarks and our proposed improved benchmark demonstrate that our approach substantially outperforms baseline methods in both fidelity and consistency. Our long-horizon videos demo can be found at https://self-forcing-plus-plus.github.io/
PDF863October 3, 2025