ChatPaper.aiChatPaper

Corrección de Trayectorias en Pruebas para la Generación Autoregresiva de Videos Largos

Pathwise Test-Time Correction for Autoregressive Long Video Generation

February 5, 2026
Autores: Xunzhi Xiang, Zixuan Duan, Guiyu Zhang, Haiyu Zhang, Zhe Gao, Junta Wu, Shaofeng Zhang, Tengfei Wang, Qi Fan, Chunchao Guo
cs.AI

Resumen

Los modelos de difusión autorregresivos destilados facilitan la síntesis de videos cortos en tiempo real, pero sufren una acumulación severa de errores durante la generación de secuencias largas. Si bien los métodos existentes de Optimización en Tiempo de Prueba (TTO) demuestran ser efectivos para imágenes o clips cortos, identificamos que no logran mitigar la deriva en secuencias extendidas debido a paisajes de recompensa inestables y la hipersensibilidad de los parámetros destilados. Para superar estas limitaciones, presentamos la Corrección en Tiempo de Prueba (TTC), una alternativa libre de entrenamiento. Específicamente, TTC utiliza el fotograma inicial como ancla de referencia estable para calibrar los estados estocásticos intermedios a lo largo de la trayectoria de muestreo. Experimentos exhaustivos demuestran que nuestro método se integra perfectamente con varios modelos destilados, extendiendo las longitudes de generación con overhead insignificante mientras iguala la calidad de los métodos intensivos en recursos basados en entrenamiento en benchmarks de 30 segundos.
English
Distilled autoregressive diffusion models facilitate real-time short video synthesis but suffer from severe error accumulation during long-sequence generation. While existing Test-Time Optimization (TTO) methods prove effective for images or short clips, we identify that they fail to mitigate drift in extended sequences due to unstable reward landscapes and the hypersensitivity of distilled parameters. To overcome these limitations, we introduce Test-Time Correction (TTC), a training-free alternative. Specifically, TTC utilizes the initial frame as a stable reference anchor to calibrate intermediate stochastic states along the sampling trajectory. Extensive experiments demonstrate that our method seamlessly integrates with various distilled models, extending generation lengths with negligible overhead while matching the quality of resource-intensive training-based methods on 30-second benchmarks.
PDF22February 7, 2026