ChatPaper.aiChatPaper

Correzione Pathwise durante il Test per la Generazione Autoregressiva di Video Lunghi

Pathwise Test-Time Correction for Autoregressive Long Video Generation

February 5, 2026
Autori: Xunzhi Xiang, Zixuan Duan, Guiyu Zhang, Haiyu Zhang, Zhe Gao, Junta Wu, Shaofeng Zhang, Tengfei Wang, Qi Fan, Chunchao Guo
cs.AI

Abstract

I modelli di diffusione autoregressivi distillati facilitano la sintesi di video brevi in tempo reale, ma soffrono di un grave accumulo di errori durante la generazione di sequenze lunghe. Sebbene i metodi esistenti di ottimizzazione al momento del test (TTO) si siano rivelati efficaci per immagini o clip brevi, abbiamo identificato che non riescono a mitigare la deriva nelle sequenze estese a causa di paesaggi di ricompensa instabili e dell'ipersensibilità dei parametri distillati. Per superare queste limitazioni, introduciamo la Correzione al Momento del Test (TTC), un'alternativa senza fase di addestramento. Nello specifico, la TTC utilizza il fotogramma iniziale come ancora di riferimento stabile per calibrare gli stati stocastici intermedi lungo la traiettoria di campionamento. Esperimenti estensivi dimostrano che il nostro metodo si integra perfettamente con vari modelli distillati, estendendo le lunghezze di generazione con un overhead trascurabile e raggiungendo la qualità di metodi basati su addestramento ad alta intensità di risorse su benchmark di 30 secondi.
English
Distilled autoregressive diffusion models facilitate real-time short video synthesis but suffer from severe error accumulation during long-sequence generation. While existing Test-Time Optimization (TTO) methods prove effective for images or short clips, we identify that they fail to mitigate drift in extended sequences due to unstable reward landscapes and the hypersensitivity of distilled parameters. To overcome these limitations, we introduce Test-Time Correction (TTC), a training-free alternative. Specifically, TTC utilizes the initial frame as a stable reference anchor to calibrate intermediate stochastic states along the sampling trajectory. Extensive experiments demonstrate that our method seamlessly integrates with various distilled models, extending generation lengths with negligible overhead while matching the quality of resource-intensive training-based methods on 30-second benchmarks.
PDF33February 7, 2026