Pfadweise Korrektur während des Tests für autoregressive Langzeit-Videogenerierung
Pathwise Test-Time Correction for Autoregressive Long Video Generation
February 5, 2026
papers.authors: Xunzhi Xiang, Zixuan Duan, Guiyu Zhang, Haiyu Zhang, Zhe Gao, Junta Wu, Shaofeng Zhang, Tengfei Wang, Qi Fan, Chunchao Guo
cs.AI
papers.abstract
Destillierte autoregressive Diffusionsmodelle ermöglichen zwar die Echtzeitsynthese von Kurzvideos, leiden jedoch unter erheblicher Fehlerakkumulation bei der Erzeugung langer Sequenzen. Während sich bestehende Test-Time-Optimierung (TTO)-Methoden für Bilder oder kurze Clips als wirksam erwiesen haben, zeigen wir, dass sie bei längeren Sequenzen die Drift-Problematik aufgrund instabiler Belohnungslandschaften und der Hypersensitivität destillierter Parameter nicht mildern können. Um diese Einschränkungen zu überwinden, führen wir Test-Time-Korrektur (TTC) ein, eine trainingsfreie Alternative. Konkret nutzt TTC den Anfangsrahmen als stabilen Referenzanker, um intermediäre stochastische Zustände entlang des Sampling-Pfades zu kalibrieren. Umfangreiche Experimente belegen, dass unsere Methode nahtlos mit verschiedenen destillierten Modellen integrierbar ist, die Generierungslängen mit vernachlässigbarem Mehraufwand deutlich erweitert und dabei die Qualität rechenintensiver, trainingsbasierter Methoden auf 30-Sekunden-Benchmarks erreicht.
English
Distilled autoregressive diffusion models facilitate real-time short video synthesis but suffer from severe error accumulation during long-sequence generation. While existing Test-Time Optimization (TTO) methods prove effective for images or short clips, we identify that they fail to mitigate drift in extended sequences due to unstable reward landscapes and the hypersensitivity of distilled parameters. To overcome these limitations, we introduce Test-Time Correction (TTC), a training-free alternative. Specifically, TTC utilizes the initial frame as a stable reference anchor to calibrate intermediate stochastic states along the sampling trajectory. Extensive experiments demonstrate that our method seamlessly integrates with various distilled models, extending generation lengths with negligible overhead while matching the quality of resource-intensive training-based methods on 30-second benchmarks.