ActWorld: Vom erkundbaren zum interaktiven Weltmodell durch aktionsbewusstes Gedächtnis

Zusammenfassung

Interaktive Weltmodelle zielen darauf ab, Umgebungsdynamiken unter Echtzeit-Benutzeraktionen zu simulieren. Ihr Aktionsvokabular ist jedoch weitgehend auf Navigation beschränkt: Die meisten Aktionen entsprechen Bewegungen (z. B. Gehen, Drehen, Umsehen), während Interaktionen mit Objekten in der Szene (z. B. Teller aufheben, Türen öffnen oder physikalische Reaktionen auslösen) entweder fehlen, auf Spielumgebungen beschränkt oder auf Prompt-zu-Vollvideo-Szenarien reduziert sind. Die resultierenden Welten sind visuell erkundbar, aber nicht wirklich handlungsfähig. In dieser Arbeit präsentieren wir ActWorld, ein interaktives Weltmodell, das frühere navigationszentrierte Generatoren erweitert, um Objektinteraktion während der Ausführung in einem Chunk-autoregressiven Rahmen zu unterstützen. Wir argumentieren, dass die Navigations-Interaktions-Lücke auf zwei Engpässe zurückzuführen ist. Erstens ein Datenengpass: der Mangel an Mensch-Objekt-Interaktionsdaten mit präzisen, dichten Annotationen. Zweitens ein Gedächtnisengpass: eine rezenzverzerrte Verlaufskompression in bestehenden Weltmodellen verwirft die Ereignisübergangsbilder, die kausal nachfolgende Objektzustände bestimmen, was zu einer Aktionsvergessenspathologie führt. Auf der Datenseite erstellen wir einen Datensatz mit 100.000 Interaktionsvideos, die jeweils mit Chunk-für-Chunk-Beschreibungen durch Ketten-Denk-Prozess annotiert sind. Auf der Modellseite führen wir ein hierarchisches aktionsbewusstes Gedächtnisdesign ein, das die Verlaufskompression nach Interaktionswichtigkeit lenkt, ergänzt durch einen persistenten Gedächtnisspeicher, der Ereignisaktualisierungs- und Objektidentitätstoken über lange Ausführungen hinweg aufrechterhält. Experimente zeigen, dass ActWorld sowohl flexible Navigation als auch reichhaltige Objektinteraktion in einem einzigen Modell unterstützt und die Interaktionstreue im Vergleich zu rein navigationsbasierten Baselines erheblich verbessert, ohne die Blickwinkelkontrolle zu beeinträchtigen. Die Projektseite ist verfügbar unter https://interactwm.github.io/ActWorld.

English

Interactive world models aim to simulate environment dynamics under real-time user actions. However, their action vocabulary is largely confined to navigation: most actions correspond to motion (e.g., walk, turn, look around), while interaction with objects in the scene (e.g., pick up plates, open doors, or trigger physical responses) is either absent, restricted to game domains, or relegated to prompt-to-full-video scenarios. The resulting worlds are visually explorable but not truly actionable. In this work, we present ActWorld, an interactive world model that extends prior navigation-centric generators to support mid-rollout object interaction within a chunk-autoregressive framework. We argue that the navigation-interaction gap stems from two bottlenecks. First, a data bottleneck: the lack of human-object interaction data with accurate, dense labels. Second, a memory bottleneck: recency-biased history compression in existing world models discards the event-transition frames that causally determine subsequent object states, leading to an action-forgetting pathology. On the data side, we construct a 100K interaction video dataset, each annotated with per-chunk captions via chain-of-thought reasoning. On the model side, we introduce a hierarchical action-aware memory design that routes history compression by interaction importance, complemented by a persistent memory bank that maintains event-update and object-identity tokens across long rollouts. Experiments show that ActWorld supports both flexible navigation and rich object interaction within a single model, substantially improving interaction fidelity over navigation-only baselines without sacrificing viewpoint control. Project page is available at https://interactwm.github.io/ActWorld.