Путевая коррекция в процессе тестирования для авторегрессионного генерации длинных видео
Pathwise Test-Time Correction for Autoregressive Long Video Generation
February 5, 2026
Авторы: Xunzhi Xiang, Zixuan Duan, Guiyu Zhang, Haiyu Zhang, Zhe Gao, Junta Wu, Shaofeng Zhang, Tengfei Wang, Qi Fan, Chunchao Guo
cs.AI
Аннотация
Дистиллированные авторегрессионные диффузионные модели обеспечивают синтез коротких видео в реальном времени, но страдают от значительного накопления ошибок при генерации длинных последовательностей. Хотя существующие методы оптимизации на этапе тестирования (TTO) демонстрируют эффективность для изображений или коротких клипов, мы выявили, что они не устраняют дрейф в протяжённых последовательностях из-за нестабильных ландшафтов вознаграждения и гиперчувствительности дистиллированных параметров. Для преодоления этих ограничений мы предлагаем коррекцию на этапе тестирования (TTC) — бесплатную альтернативу, не требующую дообучения. В частности, TTC использует начальный кадр в качестве стабильного реперного якоря для калибровки промежуточных стохастических состояний вдоль траектории сэмплирования. Многочисленные эксперименты показывают, что наш метод бесшовно интегрируется с различными дистиллированными моделями, увеличивая длительность генерации с пренебрежимо малыми затратами и соответствуя качеству ресурсоёмких методов, основанных на обучении, на 30-секундных бенчмарках.
English
Distilled autoregressive diffusion models facilitate real-time short video synthesis but suffer from severe error accumulation during long-sequence generation. While existing Test-Time Optimization (TTO) methods prove effective for images or short clips, we identify that they fail to mitigate drift in extended sequences due to unstable reward landscapes and the hypersensitivity of distilled parameters. To overcome these limitations, we introduce Test-Time Correction (TTC), a training-free alternative. Specifically, TTC utilizes the initial frame as a stable reference anchor to calibrate intermediate stochastic states along the sampling trajectory. Extensive experiments demonstrate that our method seamlessly integrates with various distilled models, extending generation lengths with negligible overhead while matching the quality of resource-intensive training-based methods on 30-second benchmarks.