Echo-Infinity: Aprendizagem de Memória Evolutiva para Geração de Vídeo Infinito em Tempo Real

Resumo

Apresentamos o Echo Infinity, uma estrutura autoregressiva (AR) para geração de vídeo infinito em tempo real que emprega uma memória evolutiva aprendível para filtrar, abstrair e comprimir dinamicamente qualquer histórico de comprimento a custo constante. Métodos existentes principalmente curam a memória com agendamentos de cache KV predefinidos, compressão heurística de razão fixa ou adaptação de RoPE em tempo de inferência. Esses designs inevitavelmente perdem informações históricas e amplificam erros compostos devido à sua janela de cache limitada e ignorância do ruído de geração autoregressiva. Inspirado pela consolidação da memória humana, o Echo-Infinity substitui a curadoria de memória artesanal por Consultas de Memória aprendíveis, que são atualizadas por atenção e um mecanismo de portão quando quadros passados são removidos da janela local. As consultas são otimizadas de ponta a ponta com os transformadores de difusão de vídeo (DiTs), formando uma memória evolutiva que suporta razões de compressão arbitrárias com computação constante independente do comprimento do vídeo. Elas também atuam como um prior de geração generalizável, melhorando a qualidade mesmo quando apenas o estado inicial otimizado é usado. Apresentamos ainda a Receita de RoPE Relativa Unificada, que ancora os quadros de sumidouro para começarem do id 0 e permite que o id do quadro mais recente cresça no máximo até o id máximo de RoPE temporal pré-treinado dos DiTs durante todo o treinamento e inferência, libertando o modelo da restrição finita de RoPE e fechando a lacuna de extrapolação de RoPE entre treino e teste. Na geração de vídeos longos e curtos, o Echo-Infinity alcança desempenho de ponta e, até onde sabemos, demonstra pela primeira vez rollouts em tempo real promissores de 24 horas (>1,3 M de quadros), sugerindo um caminho prático para a geração de vídeo infinito.

English

We present Echo Infinity, an autoregressive (AR) framework towards real-time infinite video generation that employs a learnable evolving memory to dynamically filter, abstract, and compress any-length history at constant cost. Existing methods mainly curate memory with predefined KV-cache schedules, fixed-ratio heuristic compression, or inference-time RoPE adaptation. These designs inevitably lose historical information and amplify compounding errors due to their limited cache window and ignorance of autoregressive generation noise. Inspired by human memory consolidation, Echo-Infinity replaces handcrafted memory curation with learnable Memory Query, which are updated by attention and a gating mechanism when past frames are evicted from the local window. The queries are optimized end-to-end with the video diffusion transformers (DiTs), forming an evolving memory that supports arbitrary compression ratios with constant computation independent of video length. They also act as a generalizable generation prior, improving quality even when only the optimized initial state is used. We further introduce Unified Relative RoPE Recipe, which anchors the sink frames to start from id 0 and lets the newest frame id grow at most to the DiTs' pretrained maximum temporal RoPE id throughout training and inference, freeing the model from the finite RoPE constraint and closing the train-test RoPE extrapolation gap. In long and short video generation, Echo-Infinity achieves state-of-the-art performance, and, to our knowledge, demonstrates promising 24-hour (>1.3 M frames) real-time rollouts for the first time, suggesting a practical path toward infinite video generation.