ActWorld: De modelo del mundo explorable a interactivo mediante memoria consciente de acciones

Resumen

Los modelos de mundo interactivos buscan simular la dinámica del entorno bajo acciones del usuario en tiempo real. Sin embargo, su vocabulario de acciones está mayormente limitado a la navegación: la mayoría de las acciones corresponden a movimientos (por ejemplo, caminar, girar, mirar alrededor), mientras que la interacción con objetos en la escena (por ejemplo, recoger platos, abrir puertas o desencadenar respuestas físicas) está ausente, restringida a dominios de juegos o relegada a escenarios de video completo a partir de texto. Los mundos resultantes son visualmente explorables pero no verdaderamente accionables. En este trabajo, presentamos ActWorld, un modelo de mundo interactivo que extiende los generadores centrados en la navegación previos para admitir interacción con objetos durante el despliegue, dentro de un marco autoregresivo por fragmentos. Argumentamos que la brecha entre navegación e interacción surge de dos cuellos de botella. Primero, un cuello de botella de datos: la falta de datos de interacción humano-objeto con etiquetas precisas y densas. Segundo, un cuello de botella de memoria: la compresión del historial sesgada hacia lo reciente en los modelos de mundo existentes descarta los fotogramas de transición de eventos que determinan causalmente los estados posteriores de los objetos, lo que lleva a una patología de olvido de acciones. En el lado de los datos, construimos un conjunto de datos de 100K videos de interacción, cada uno anotado con descripciones por fragmento mediante razonamiento en cadena de pensamiento. En el lado del modelo, introducimos un diseño de memoria jerárquica sensible a acciones que enruta la compresión del historial según la importancia de la interacción, complementado por un banco de memoria persistente que mantiene tokens de actualización de eventos e identidad de objetos a lo largo de despliegues extensos. Los experimentos muestran que ActWorld admite tanto navegación flexible como interacción rica con objetos dentro de un solo modelo, mejorando sustancialmente la fidelidad de interacción en comparación con las líneas base solo de navegación, sin sacrificar el control del punto de vista. La página del proyecto está disponible en https://interactwm.github.io/ActWorld.

English

Interactive world models aim to simulate environment dynamics under real-time user actions. However, their action vocabulary is largely confined to navigation: most actions correspond to motion (e.g., walk, turn, look around), while interaction with objects in the scene (e.g., pick up plates, open doors, or trigger physical responses) is either absent, restricted to game domains, or relegated to prompt-to-full-video scenarios. The resulting worlds are visually explorable but not truly actionable. In this work, we present ActWorld, an interactive world model that extends prior navigation-centric generators to support mid-rollout object interaction within a chunk-autoregressive framework. We argue that the navigation-interaction gap stems from two bottlenecks. First, a data bottleneck: the lack of human-object interaction data with accurate, dense labels. Second, a memory bottleneck: recency-biased history compression in existing world models discards the event-transition frames that causally determine subsequent object states, leading to an action-forgetting pathology. On the data side, we construct a 100K interaction video dataset, each annotated with per-chunk captions via chain-of-thought reasoning. On the model side, we introduce a hierarchical action-aware memory design that routes history compression by interaction importance, complemented by a persistent memory bank that maintains event-update and object-identity tokens across long rollouts. Experiments show that ActWorld supports both flexible navigation and rich object interaction within a single model, substantially improving interaction fidelity over navigation-only baselines without sacrificing viewpoint control. Project page is available at https://interactwm.github.io/ActWorld.