Eco-Memória: Um Estudo Controlado da Memória em Modelos de Mundo de Ação

Resumo

Apresentamos o Echo-Memory, um estudo controlado de mecanismos de memória em modelos de mundo condicionados por ação. Esses modelos geram vídeos de múltiplos segmentos a partir de um primeiro quadro, um prompt de texto e uma sequência de câmera-ação, mas sua falha central é frequentemente a memória, e não a síntese local de imagem: após a câmera sair e retornar, a cena ou o objeto saliente pode mudar silenciosamente. Projetos de memória existentes são difíceis de comparar porque os ganhos estão entrelaçados com diferenças na arquitetura base, treinamento, recuperação e avaliação. O Echo-Memory fixa a interface ação-para-vídeo e varia apenas como o histórico é armazenado e lido pelo gerador. Sob uma arquitetura base compartilhada de difusão de vídeo, otimizador, representação de câmera-ação, amostrador e pipeline de avaliação, comparamos contexto bruto, memória baseada em compressão, sumários espaciais com diferentes caminhos de leitura e recorrência em espaço de estados. Essa matriz correspondente separa quatro eixos que, de outra forma, estariam confundidos: capacidade, compressão, leitura e recorrência. Também avaliamos a memória por meio de um protocolo de três ramos: qualidade de reprodução, retorno em loop no domínio interno e sondas de retorno em domínio aberto. Os ramos frequentemente discordam, mostrando que a fidelidade de reprodução não é um substituto suficiente para lembrar um mundo. Três descobertas se seguem. O contexto bruto é uma forte linha de base de capacidade e melhora o retorno em domínio aberto muito mais do que melhora as métricas de reprodução. A compacidade não é um substituto gratuito para a capacidade: memórias de compressão agressiva, espacial e híbrida perdem as evidências salientes necessárias para o retorno. Finalmente, a recorrência em espaço de estados por blocos é o mecanismo de retorno em domínio aberto mais forte em nossa matriz, mostrando que a estrutura da memória implícita importa tanto quanto a decisão de usá-la. Esses resultados fornecem um protocolo compacto para estudar a memória em modelos de mundo de ação além de métricas de reprodução isoladas.

English

We present Echo-Memory, a controlled study of memory mechanisms in action-conditioned world models. These models generate multi-segment videos from a first frame, text prompt, and camera-action sequence, but their central failure is often memory rather than local image synthesis: after the camera leaves and returns, the scene or salient object may silently change. Existing memory designs are hard to compare because gains are entangled with backbone, training, retrieval, and evaluation differences. Echo-Memory fixes the action-to-video interface and varies only how history is stored and read by the generator. Under a shared video diffusion backbone, optimizer, camera-action representation, sampler, and evaluation pipeline, we compare raw context, compression-based memory, spatial summaries with different read-out paths, and state-space recurrence. This matched matrix separates four otherwise conflated axes: capacity, compression, read-out, and recurrence. We also evaluate memory through a three-branch protocol: replay quality, in-domain loop revisit, and open-domain return probes. The branches routinely disagree, showing that replay fidelity is not a sufficient proxy for remembering a world. Three findings follow. Raw context is a strong capacity baseline and improves open-domain return far more than it improves replay metrics. Compactness is not a free substitute for capacity: aggressive spatial and hybrid-compression memories lose the salient evidence needed for return. Finally, block-wise state-space recurrence is the strongest open-domain return mechanism in our matrix, showing that the structure of implicit memory matters as much as the decision to use it. These results provide a compact protocol for studying memory in action world models beyond isolated replay metrics.