ActWorld : De l'explorable au modèle de monde interactif via une mémoire sensible aux actions

Résumé

Les modèles de monde interactifs visent à simuler la dynamique de l'environnement sous l'effet d'actions utilisateur en temps réel. Cependant, leur vocabulaire d'actions est largement confiné à la navigation : la plupart des actions correspondent à des mouvements (par exemple, marcher, tourner, regarder autour), tandis que l'interaction avec les objets de la scène (par exemple, ramasser des assiettes, ouvrir des portes ou déclencher des réponses physiques) est soit absente, soit restreinte aux domaines de jeu, soit reléguée à des scénarios de type "prompt vers vidéo intégrale". Les mondes qui en résultent sont visuellement explorables mais pas véritablement actionnables. Dans ce travail, nous présentons ActWorld, un modèle de monde interactif qui étend les générateurs précédemment centrés sur la navigation pour prendre en charge l'interaction avec les objets en cours de déroulement, dans un cadre auto-régressif par segments. Nous soutenons que le fossé entre navigation et interaction provient de deux goulets d'étranglement. Premièrement, un goulet d'étranglement lié aux données : l'absence de données d'interaction humain-objet avec des annotations précises et denses. Deuxièmement, un goulet d'étranglement lié à la mémoire : la compression de l'historique biaisée par la récence dans les modèles de monde existants écarte les images de transition d'événements qui déterminent causalement les états ultérieurs des objets, conduisant à une pathologie d'oubli d'actions. Côté données, nous construisons un ensemble de données de 100 000 vidéos d'interaction, chacune annotée de légendes par segments via un raisonnement en chaîne de pensée. Côté modèle, nous introduisons une conception de mémoire hiérarchique sensible aux actions, qui achemine la compression de l'historique en fonction de l'importance de l'interaction, complétée par une banque de mémoire persistante qui maintient des jetons de mise à jour d'événements et d'identité d'objets sur de longs déroulements. Les expériences montrent qu'ActWorld prend en charge à la fois une navigation flexible et une interaction riche avec les objets au sein d'un seul modèle, améliorant considérablement la fidélité d'interaction par rapport aux modèles de base uniquement de navigation, sans sacrifier le contrôle du point de vue. La page du projet est disponible à l'adresse https://interactwm.github.io/ActWorld.

English

Interactive world models aim to simulate environment dynamics under real-time user actions. However, their action vocabulary is largely confined to navigation: most actions correspond to motion (e.g., walk, turn, look around), while interaction with objects in the scene (e.g., pick up plates, open doors, or trigger physical responses) is either absent, restricted to game domains, or relegated to prompt-to-full-video scenarios. The resulting worlds are visually explorable but not truly actionable. In this work, we present ActWorld, an interactive world model that extends prior navigation-centric generators to support mid-rollout object interaction within a chunk-autoregressive framework. We argue that the navigation-interaction gap stems from two bottlenecks. First, a data bottleneck: the lack of human-object interaction data with accurate, dense labels. Second, a memory bottleneck: recency-biased history compression in existing world models discards the event-transition frames that causally determine subsequent object states, leading to an action-forgetting pathology. On the data side, we construct a 100K interaction video dataset, each annotated with per-chunk captions via chain-of-thought reasoning. On the model side, we introduce a hierarchical action-aware memory design that routes history compression by interaction importance, complemented by a persistent memory bank that maintains event-update and object-identity tokens across long rollouts. Experiments show that ActWorld supports both flexible navigation and rich object interaction within a single model, substantially improving interaction fidelity over navigation-only baselines without sacrificing viewpoint control. Project page is available at https://interactwm.github.io/ActWorld.