ChatPaper.aiChatPaper

Echo-Infinity: Leren van evoluerend geheugen voor real-time oneindige videogeneratie

Echo-Infinity: Learning Evolving Memory for Real-Time Infinite Video Generation

June 3, 2026
Auteurs: Yuxuan Bian, Zeyue Xue, Songchun Zhang, Shiyi Zhang, Weiyang Jin, Yaowei Li, Junhao Zhuang, Haoran Li, Jie Huang, Haoyang Huang, Nan Duan, Qiang Xu
cs.AI

Samenvatting

Wij presenteren Echo Infinity, een autoregressief (AR) raamwerk voor real-time oneindige videogeneratie dat gebruikmaakt van een leerbaar evoluerend geheugen om dynamisch elke lengte uit de geschiedenis te filteren, abstraheren en comprimeren tegen constante kosten. Bestaande methoden beheren het geheugen voornamelijk met vooraf gedefinieerde KV-cache-schema's, heuristische compressie met vaste verhouding, of RoPE-aanpassing tijdens de inferentie. Deze ontwerpen verliezen onvermijdelijk historische informatie en versterken cumulatieve fouten door hun beperkte cachevenster en het negeren van autoregressieve generatieruis. Geïnspireerd door menselijke geheugenconsolidatie vervangt Echo-Infinity handgemaakt geheugenbeheer door leerbare geheugenquery's, die worden bijgewerkt door aandacht en een poortmechanisme wanneer oude frames uit het lokale venster worden verwijderd. De query's worden end-to-end geoptimaliseerd met de video-diffusietransformatoren (DiT's), wat een evoluerend geheugen vormt dat willekeurige compressieverhoudingen ondersteunt met constante rekenkosten, onafhankelijk van de videolengte. Ze fungeren ook als een generaliseerbare generatieprior, waardoor de kwaliteit verbetert, zelfs wanneer alleen de geoptimaliseerde begintoestand wordt gebruikt. We introduceren verder een Unified Relative RoPE Recept, dat de sink-frames verankert om vanaf id 0 te beginnen en het nieuwste frame-id maximaal laat groeien tot de voorgetrainde maximale temporele RoPE-id van de DiT's tijdens training en inferentie, waardoor het model wordt bevrijd van de eindige RoPE-beperking en de train-test RoPE-extrapolatiekloof wordt gedicht. In lange en korte videogeneratie behaalt Echo-Infinity state-of-the-art prestaties, en, voor zover wij weten, toont het voor de eerste keer veelbelovende 24-uurs (>1,3 miljoen frames) real-time uitrols, wat een praktische weg naar oneindige videogeneratie suggereert.
English
We present Echo Infinity, an autoregressive (AR) framework towards real-time infinite video generation that employs a learnable evolving memory to dynamically filter, abstract, and compress any-length history at constant cost. Existing methods mainly curate memory with predefined KV-cache schedules, fixed-ratio heuristic compression, or inference-time RoPE adaptation. These designs inevitably lose historical information and amplify compounding errors due to their limited cache window and ignorance of autoregressive generation noise. Inspired by human memory consolidation, Echo-Infinity replaces handcrafted memory curation with learnable Memory Query, which are updated by attention and a gating mechanism when past frames are evicted from the local window. The queries are optimized end-to-end with the video diffusion transformers (DiTs), forming an evolving memory that supports arbitrary compression ratios with constant computation independent of video length. They also act as a generalizable generation prior, improving quality even when only the optimized initial state is used. We further introduce Unified Relative RoPE Recipe, which anchors the sink frames to start from id 0 and lets the newest frame id grow at most to the DiTs' pretrained maximum temporal RoPE id throughout training and inference, freeing the model from the finite RoPE constraint and closing the train-test RoPE extrapolation gap. In long and short video generation, Echo-Infinity achieves state-of-the-art performance, and, to our knowledge, demonstrates promising 24-hour (>1.3 M frames) real-time rollouts for the first time, suggesting a practical path toward infinite video generation.