ChatPaper.aiChatPaper

Correction Chemin par Chemin en Phase de Test pour la Génération Autonome de Vidéos Longues

Pathwise Test-Time Correction for Autoregressive Long Video Generation

February 5, 2026
papers.authors: Xunzhi Xiang, Zixuan Duan, Guiyu Zhang, Haiyu Zhang, Zhe Gao, Junta Wu, Shaofeng Zhang, Tengfei Wang, Qi Fan, Chunchao Guo
cs.AI

papers.abstract

Les modèles de diffusion autorégressifs distillés facilitent la synthèse de vidéos courtes en temps réel mais souffrent d'une accumulation sévère d'erreurs lors de la génération de longues séquences. Bien que les méthodes d'optimisation au moment du test (TTO) existantes s'avèrent efficaces pour les images ou les clips courts, nous constatons qu'elles échouent à atténuer la dérive dans les séquences étendues en raison de paysages de récompense instables et de l'hypersensibilité des paramètres distillés. Pour surmonter ces limitations, nous introduisons la Correction au Moment du Test (TTC), une alternative sans entraînement. Concrètement, TTC utilise la frame initiale comme ancre de référence stable pour calibrer les états stochastiques intermédiaires le long de la trajectoire d'échantillonnage. Des expériences approfondies démontrent que notre méthode s'intègre parfaitement à divers modèles distillés, prolongeant les longueurs de génération avec une surcharge négligeable tout en égalant la qualité des méthodes intensives basées sur l'entraînement sur des benchmarks de 30 secondes.
English
Distilled autoregressive diffusion models facilitate real-time short video synthesis but suffer from severe error accumulation during long-sequence generation. While existing Test-Time Optimization (TTO) methods prove effective for images or short clips, we identify that they fail to mitigate drift in extended sequences due to unstable reward landscapes and the hypersensitivity of distilled parameters. To overcome these limitations, we introduce Test-Time Correction (TTC), a training-free alternative. Specifically, TTC utilizes the initial frame as a stable reference anchor to calibrate intermediate stochastic states along the sampling trajectory. Extensive experiments demonstrate that our method seamlessly integrates with various distilled models, extending generation lengths with negligible overhead while matching the quality of resource-intensive training-based methods on 30-second benchmarks.
PDF22February 7, 2026