Fora da Vista, mas Não da Mente: Memória Híbrida para Modelos Dinâmicos de Mundo em Vídeo

Resumo

Os modelos de vídeo de mundo têm demonstrado imenso potencial na simulação do mundo físico, porém os mecanismos de memória existentes tratam principalmente os ambientes como telas estáticas. Quando sujeitos dinâmicos se ocultam da vista e posteriormente reaparecem, os métodos atuais frequentemente apresentam dificuldades, resultando em sujeitos congelados, distorcidos ou que desaparecem. Para resolver isso, introduzimos a Memória Híbrida, um novo paradigma que exige que os modelos atuem simultaneamente como arquivistas precisos para fundos estáticos e rastreadores vigilantes para sujeitos dinâmicos, garantindo a continuidade do movimento durante os intervalos fora de vista. Para facilitar a pesquisa nessa direção, construímos o HM-World, o primeiro grande conjunto de dados de vídeo dedicado à memória híbrida. Ele apresenta 59 mil clipes de alta fidelidade com trajetórias de câmera e de sujeitos dissociadas, abrangendo 17 cenas diversas, 49 sujeitos distintos e eventos de saída-entrada meticulosamente projetados para avaliar rigorosamente a coerência híbrida. Além disso, propomos o HyDRA, uma arquitetura de memória especializada que comprime a memória em tokens e utiliza um mecanismo de recuperação orientado por relevância espaço-temporal. Ao atender seletivamente a pistas de movimento relevantes, o HyDRA preserva efetivamente a identidade e o movimento de sujeitos ocultos. Experimentos extensivos no HM-World demonstram que nosso método supera significativamente as abordagens state-of-the-art tanto na consistência de sujeitos dinâmicos quanto na qualidade geral de geração.

English

Video world models have shown immense potential in simulating the physical world, yet existing memory mechanisms primarily treat environments as static canvases. When dynamic subjects hide out of sight and later re-emerge, current methods often struggle, leading to frozen, distorted, or vanishing subjects. To address this, we introduce Hybrid Memory, a novel paradigm requiring models to simultaneously act as precise archivists for static backgrounds and vigilant trackers for dynamic subjects, ensuring motion continuity during out-of-view intervals. To facilitate research in this direction, we construct HM-World, the first large-scale video dataset dedicated to hybrid memory. It features 59K high-fidelity clips with decoupled camera and subject trajectories, encompassing 17 diverse scenes, 49 distinct subjects, and meticulously designed exit-entry events to rigorously evaluate hybrid coherence. Furthermore, we propose HyDRA, a specialized memory architecture that compresses memory into tokens and utilizes a spatiotemporal relevance-driven retrieval mechanism. By selectively attending to relevant motion cues, HyDRA effectively preserves the identity and motion of hidden subjects. Extensive experiments on HM-World demonstrate that our method significantly outperforms state-of-the-art approaches in both dynamic subject consistency and overall generation quality.