ChatPaper.aiChatPaper

Correção de Caminhos durante o Teste para Geração Autoregressiva de Vídeos Longos

Pathwise Test-Time Correction for Autoregressive Long Video Generation

February 5, 2026
Autores: Xunzhi Xiang, Zixuan Duan, Guiyu Zhang, Haiyu Zhang, Zhe Gao, Junta Wu, Shaofeng Zhang, Tengfei Wang, Qi Fan, Chunchao Guo
cs.AI

Resumo

Os modelos de difusão autoregressivos destilados facilitam a síntese de vídeos curtos em tempo real, mas sofrem com severo acúmulo de erros durante a geração de sequências longas. Embora os métodos existentes de Otimização em Tempo de Teste (TTO) demonstrem eficácia para imagens ou clipes curtos, identificamos que eles falham em mitigar o desvio em sequências estendidas devido a paisagens de recompensa instáveis e a hipersensibilidade dos parâmetros destilados. Para superar essas limitações, introduzimos a Correção em Tempo de Teste (TTC), uma alternativa livre de treinamento. Especificamente, a TTC utiliza o quadro inicial como uma âncora de referência estável para calibrar estados estocásticos intermediários ao longo da trajetória de amostragem. Experimentos extensivos demonstram que nosso método integra-se perfeitamente a vários modelos destilados, estendendo os comprimentos de geração com sobrecarga insignificante enquanto iguala a qualidade de métodos baseados em treinamento intensivo de recursos em benchmarks de 30 segundos.
English
Distilled autoregressive diffusion models facilitate real-time short video synthesis but suffer from severe error accumulation during long-sequence generation. While existing Test-Time Optimization (TTO) methods prove effective for images or short clips, we identify that they fail to mitigate drift in extended sequences due to unstable reward landscapes and the hypersensitivity of distilled parameters. To overcome these limitations, we introduce Test-Time Correction (TTC), a training-free alternative. Specifically, TTC utilizes the initial frame as a stable reference anchor to calibrate intermediate stochastic states along the sampling trajectory. Extensive experiments demonstrate that our method seamlessly integrates with various distilled models, extending generation lengths with negligible overhead while matching the quality of resource-intensive training-based methods on 30-second benchmarks.
PDF33February 7, 2026