ChatPaper.aiChatPaper

Geração Autoregressiva de Vídeo por Streaming via Distilação Diagonal

Streaming Autoregressive Video Generation via Diagonal Distillation

March 10, 2026
Autores: Jinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang Liu
cs.AI

Resumo

Os grandes modelos de difusão pré-treinados melhoraram significativamente a qualidade dos vídeos gerados, mas seu uso em transmissão em tempo real permanece limitado. Os modelos autoregressivos oferecem uma estrutura natural para síntese sequencial de quadros, mas exigem computação pesada para alcançar alta fidelidade. A destilação por difusão pode comprimir esses modelos em variantes eficientes de poucos passos, mas as abordagens de destilação de vídeo existentes adaptam amplamente métodos específicos para imagens que negligenciam dependências temporais. Essas técnicas frequentemente se destacam na geração de imagens, mas têm desempenho inferior na síntese de vídeo, exibindo coerência de movimento reduzida, acúmulo de erros em sequências longas e um compromisso entre latência e qualidade. Identificamos dois fatores que resultam nessas limitações: utilização insuficiente do contexto temporal durante a redução de passos e previsão implícita dos níveis de ruído subsequentes na previsão do próximo bloco (ou seja, viés de exposição). Para resolver esses problemas, propomos a Destilação Diagonal, que opera ortogonalmente às abordagens existentes e explora melhor a informação temporal através de blocos de vídeo e passos de remoção de ruído. Central à nossa abordagem é uma estratégia de geração assimétrica: mais passos no início, menos passos depois. Este projeto permite que blocos posteriores herdem informações ricas de aparência de blocos iniciais processados rigorosamente, enquanto usa blocos parcialmente removidos de ruído como entradas condicionais para síntese subsequente. Ao alinhar a previsão implícita dos níveis de ruído subsequentes durante a geração de blocos com as condições reais de inferência, nossa abordagem mitiga a propagação de erros e reduz a supersaturação em sequências de longo alcance. Incorporamos ainda modelagem implícita de fluxo óptico para preservar a qualidade do movimento sob restrições rigorosas de passos. Nosso método gera um vídeo de 5 segundos em 2,61 segundos (até 31 FPS), alcançando uma aceleração de 277,3x em relação ao modelo não destilado.
English
Large pretrained diffusion models have significantly enhanced the quality of generated videos, and yet their use in real-time streaming remains limited. Autoregressive models offer a natural framework for sequential frame synthesis but require heavy computation to achieve high fidelity. Diffusion distillation can compress these models into efficient few-step variants, but existing video distillation approaches largely adapt image-specific methods that neglect temporal dependencies. These techniques often excel in image generation but underperform in video synthesis, exhibiting reduced motion coherence, error accumulation over long sequences, and a latency-quality trade-off. We identify two factors that result in these limitations: insufficient utilization of temporal context during step reduction and implicit prediction of subsequent noise levels in next-chunk prediction (i.e., exposure bias). To address these issues, we propose Diagonal Distillation, which operates orthogonally to existing approaches and better exploits temporal information across both video chunks and denoising steps. Central to our approach is an asymmetric generation strategy: more steps early, fewer steps later. This design allows later chunks to inherit rich appearance information from thoroughly processed early chunks, while using partially denoised chunks as conditional inputs for subsequent synthesis. By aligning the implicit prediction of subsequent noise levels during chunk generation with the actual inference conditions, our approach mitigates error propagation and reduces oversaturation in long-range sequences. We further incorporate implicit optical flow modeling to preserve motion quality under strict step constraints. Our method generates a 5-second video in 2.61 seconds (up to 31 FPS), achieving a 277.3x speedup over the undistilled model.
PDF52March 26, 2026