ChatPaper.aiChatPaper

ActWorld: Van exploreerbaar naar interactief wereldmodel via actiebewust geheugen

ActWorld: From Explorable to Interactive World Model via Action-Aware Memory

June 16, 2026
Auteurs: Zhexiao Xiong, Yizhi Song, Hao Kang, Qing Yan, Liming Jiang, Jenson Yang, Zhoujie Fu, Stathi Fotiadis, Angtian Wang, Zichuan Liu, Bo Liu, Yiding Yang, Xin Lu, Nathan Jacobs
cs.AI

Samenvatting

Interactieve wereldmodellen streven ernaar de omgevingsdynamiek te simuleren onder realtime gebruikersacties. Hun actievocabulaire blijft echter grotendeels beperkt tot navigatie: de meeste acties komen overeen met beweging (bijv. lopen, draaien, rondkijken), terwijl interactie met objecten in de scène (bijv. borden oppakken, deuren openen of fysieke reacties veroorzaken) ontbreekt, beperkt blijft tot game-domeinen of wordt gereduceerd tot prompt-naar-volledige-video scenario's. De resulterende werelden zijn visueel verkennbaar maar niet werkelijk actief. In dit werk presenteren we ActWorld, een interactief wereldmodel dat eerdere navigatiegerichte generators uitbreidt met ondersteuning voor objectinteractie tijdens rollouts, binnen een chunk-autoregressief raamwerk. We betogen dat de navigatie-interactie kloof voortkomt uit twee knelpunten. Ten eerste een dataknelpunt: het gebrek aan mens-object-interactiegegevens met nauwkeurige, dichte labels. Ten tweede een geheugenknelpunt: recentie-afhankelijke geschiedeniscompressie in bestaande wereldmodellen gooit de gebeurtenis-overgangsframes weg die causaal bepalend zijn voor daaropvolgende objecttoestanden, wat leidt tot een actie-vergeten pathologie. Aan de datazijde bouwen we een dataset van 100K interactievideo's, elk geannoteerd met per-chunk bijschriften via keten-van-gedachten redenering. Aan de modelzijde introduceren we een hiërarchisch actiebewust geheugenontwerp dat geschiedeniscompressie routeert op basis van interactiebelang, aangevuld met een permanente geheugenbank die gebeurtenis-update en object-identiteit tokens bijhoudt over lange rollouts. Experimenten tonen aan dat ActWorld zowel flexibele navigatie als rijke objectinteractie ondersteunt binnen één model, met een aanzienlijke verbetering van interactietrouw ten opzichte van navigatie-only basislijnen zonder in te boeten op camerastandpuntcontrole. Projectpagina is beschikbaar op https://interactwm.github.io/ActWorld.
English
Interactive world models aim to simulate environment dynamics under real-time user actions. However, their action vocabulary is largely confined to navigation: most actions correspond to motion (e.g., walk, turn, look around), while interaction with objects in the scene (e.g., pick up plates, open doors, or trigger physical responses) is either absent, restricted to game domains, or relegated to prompt-to-full-video scenarios. The resulting worlds are visually explorable but not truly actionable. In this work, we present ActWorld, an interactive world model that extends prior navigation-centric generators to support mid-rollout object interaction within a chunk-autoregressive framework. We argue that the navigation-interaction gap stems from two bottlenecks. First, a data bottleneck: the lack of human-object interaction data with accurate, dense labels. Second, a memory bottleneck: recency-biased history compression in existing world models discards the event-transition frames that causally determine subsequent object states, leading to an action-forgetting pathology. On the data side, we construct a 100K interaction video dataset, each annotated with per-chunk captions via chain-of-thought reasoning. On the model side, we introduce a hierarchical action-aware memory design that routes history compression by interaction importance, complemented by a persistent memory bank that maintains event-update and object-identity tokens across long rollouts. Experiments show that ActWorld supports both flexible navigation and rich object interaction within a single model, substantially improving interaction fidelity over navigation-only baselines without sacrificing viewpoint control. Project page is available at https://interactwm.github.io/ActWorld.