Echo-Memory: Eine kontrollierte Studie zum Gedächtnis in Handlungs-Weltmodellen

Zusammenfassung

Wir präsentieren Echo-Memory, eine kontrollierte Studie zu Gedächtnismechanismen in aktionskonditionierten Weltmodellen. Diese Modelle generieren mehrsegmentige Videos aus einem ersten Bild, einer Texteingabe und einer Kamera-Aktionssequenz, doch ihr zentrales Versagen liegt oft im Gedächtnis und nicht in der lokalen Bildsynthese: Nachdem die Kamera die Szene verlassen und wieder betreten hat, kann sich die Szene oder ein hervorstechendes Objekt stillschweigend verändern. Bisherige Gedächtnisdesigns sind schwer vergleichbar, da Verbesserungen mit Unterschieden in Backbone, Training, Abruf und Evaluation verknüpft sind. Echo-Memory fixiert die Aktions-zu-Video-Schnittstelle und variiert nur, wie die Historie gespeichert und vom Generator gelesen wird. Auf Basis eines gemeinsamen Video-Diffusion-Backbones, Optimierers, Kamera-Aktions-Darstellung, Samplers und Evaluations-Pipelines vergleichen wir Rohkontext, kompressionsbasiertes Gedächtnis, räumliche Zusammenfassungen mit verschiedenen Auslesepfaden sowie Zustandsraum-Rekurrenz. Diese abgestimmte Matrix trennt vier sonst vermischte Achsen: Kapazität, Kompression, Auslesen und Rekurrenz. Zudem evaluieren wir das Gedächtnis durch ein Drei-Zweig-Protokoll: Wiedergabequalität, In-Domain-Loop-Wiederbesuche und Open-Domain-Rückkehrproben. Die Zweige widersprechen sich regelmäßig und zeigen, dass Wiedergabetreue allein kein ausreichender Indikator für das Erinnern einer Welt ist. Drei Ergebnisse folgen daraus. Rohkontext ist eine starke Kapazitätsbaseline und verbessert die Open-Domain-Rückkehr weit mehr als die Wiedergabemetriken. Kompaktheit ist kein freier Ersatz für Kapazität: aggressive räumliche und hybride Kompressionsspeicher verlieren die für die Rückkehr erforderlichen salienten Belege. Schließlich erweist sich blockweise Zustandsraum-Rekurrenz als der stärkste Open-Domain-Rückkehrmechanismus in unserer Matrix, was zeigt, dass die Struktur des impliziten Gedächtnisses ebenso wichtig ist wie die Entscheidung, es zu nutzen. Diese Ergebnisse liefern ein kompaktes Protokoll zur Untersuchung von Gedächtnis in Aktionsweltmodellen über isolierte Wiedergabemetriken hinaus.

English

We present Echo-Memory, a controlled study of memory mechanisms in action-conditioned world models. These models generate multi-segment videos from a first frame, text prompt, and camera-action sequence, but their central failure is often memory rather than local image synthesis: after the camera leaves and returns, the scene or salient object may silently change. Existing memory designs are hard to compare because gains are entangled with backbone, training, retrieval, and evaluation differences. Echo-Memory fixes the action-to-video interface and varies only how history is stored and read by the generator. Under a shared video diffusion backbone, optimizer, camera-action representation, sampler, and evaluation pipeline, we compare raw context, compression-based memory, spatial summaries with different read-out paths, and state-space recurrence. This matched matrix separates four otherwise conflated axes: capacity, compression, read-out, and recurrence. We also evaluate memory through a three-branch protocol: replay quality, in-domain loop revisit, and open-domain return probes. The branches routinely disagree, showing that replay fidelity is not a sufficient proxy for remembering a world. Three findings follow. Raw context is a strong capacity baseline and improves open-domain return far more than it improves replay metrics. Compactness is not a free substitute for capacity: aggressive spatial and hybrid-compression memories lose the salient evidence needed for return. Finally, block-wise state-space recurrence is the strongest open-domain return mechanism in our matrix, showing that the structure of implicit memory matters as much as the decision to use it. These results provide a compact protocol for studying memory in action world models beyond isolated replay metrics.