ChatPaper.aiChatPaper

Pad-afhankelijke correctie tijdens testtijd voor autoregressieve generatie van lange video's

Pathwise Test-Time Correction for Autoregressive Long Video Generation

February 5, 2026
Auteurs: Xunzhi Xiang, Zixuan Duan, Guiyu Zhang, Haiyu Zhang, Zhe Gao, Junta Wu, Shaofeng Zhang, Tengfei Wang, Qi Fan, Chunchao Guo
cs.AI

Samenvatting

Gedistilleerde autoregressieve diffusiemodellen maken real-time synthese van korte video's mogelijk, maar lijden onder ernstige foutaccumulatie tijdens de generatie van lange sequenties. Hoewel bestaande Test-Time Optimalisatie (TTO) methoden effectief blijken voor afbeeldingen of korte clips, constateren wij dat ze de drift in uitgebreide sequenties niet kunnen mitigeren vanwege onstabiele beloningslandschappen en de overgevoeligheid van gedistilleerde parameters. Om deze beperkingen te overwinnen, introduceren wij Test-Time Correctie (TTC), een trainingsvrij alternatief. Concreet gebruikt TTC het initiële frame als een stabiel referentieanker om intermediaire stochastische toestanden langs het samplingtraject te kalibreren. Uitgebreide experimenten tonen aan dat onze methode naadloos integreert met diverse gedistilleerde modellen, de generatielengten verlengt met verwaarloosbare overhead en tegelijkertijd de kwaliteit evenaart van resource-intensieve, op training gebaseerde methoden op 30-seconden benchmarks.
English
Distilled autoregressive diffusion models facilitate real-time short video synthesis but suffer from severe error accumulation during long-sequence generation. While existing Test-Time Optimization (TTO) methods prove effective for images or short clips, we identify that they fail to mitigate drift in extended sequences due to unstable reward landscapes and the hypersensitivity of distilled parameters. To overcome these limitations, we introduce Test-Time Correction (TTC), a training-free alternative. Specifically, TTC utilizes the initial frame as a stable reference anchor to calibrate intermediate stochastic states along the sampling trajectory. Extensive experiments demonstrate that our method seamlessly integrates with various distilled models, extending generation lengths with negligible overhead while matching the quality of resource-intensive training-based methods on 30-second benchmarks.
PDF33February 7, 2026