ActWorld: Do Modelo de Mundo Explorável ao Interativo via Memória Ciente de Ações

Resumo

Os modelos de mundo interativos visam simular a dinâmica do ambiente sob ações do usuário em tempo real. No entanto, seu vocabulário de ações é amplamente restrito à navegação: a maioria das ações corresponde a movimento (por exemplo, andar, girar, olhar ao redor), enquanto a interação com objetos na cena (por exemplo, pegar pratos, abrir portas ou desencadear respostas físicas) está ausente, limitada a domínios de jogos ou relegada a cenários de prompt para vídeo completo. Os mundos resultantes são visualmente exploráveis, mas não verdadeiramente acionáveis. Neste trabalho, apresentamos o ActWorld, um modelo de mundo interativo que estende geradores anteriores centrados em navegação para suportar interação com objetos durante a execução do modelo (mid-rollout) dentro de uma estrutura autoregressiva baseada em blocos (chunk-autoregressive). Argumentamos que a lacuna entre navegação e interação decorre de dois gargalos. Primeiro, um gargalo de dados: a falta de dados de interação humano-objeto com rótulos precisos e densos. Segundo, um gargalo de memória: a compressão do histórico com viés de recência em modelos de mundo existentes descarta os quadros de transição de eventos que determinam causalmente estados subsequentes de objetos, levando a uma patologia de esquecimento de ações. No lado dos dados, construímos um conjunto de dados com 100 mil vídeos de interação, cada um anotado com legendas por bloco (por chunk) via raciocínio em cadeia de pensamento (chain-of-thought reasoning). No lado do modelo, introduzimos um design de memória hierárquica consciente de ações que direciona a compressão do histórico com base na importância da interação, complementado por um banco de memória persistente que mantém tokens de atualização de eventos e tokens de identidade de objetos ao longo de execuções longas. Experimentos mostram que o ActWorld suporta tanto navegação flexível quanto interação rica com objetos em um único modelo, melhorando substancialmente a fidelidade da interação em comparação com linhas de base apenas de navegação, sem sacrificar o controle de ponto de vista. A página do projeto está disponível em https://interactwm.github.io/ActWorld.

English

Interactive world models aim to simulate environment dynamics under real-time user actions. However, their action vocabulary is largely confined to navigation: most actions correspond to motion (e.g., walk, turn, look around), while interaction with objects in the scene (e.g., pick up plates, open doors, or trigger physical responses) is either absent, restricted to game domains, or relegated to prompt-to-full-video scenarios. The resulting worlds are visually explorable but not truly actionable. In this work, we present ActWorld, an interactive world model that extends prior navigation-centric generators to support mid-rollout object interaction within a chunk-autoregressive framework. We argue that the navigation-interaction gap stems from two bottlenecks. First, a data bottleneck: the lack of human-object interaction data with accurate, dense labels. Second, a memory bottleneck: recency-biased history compression in existing world models discards the event-transition frames that causally determine subsequent object states, leading to an action-forgetting pathology. On the data side, we construct a 100K interaction video dataset, each annotated with per-chunk captions via chain-of-thought reasoning. On the model side, we introduce a hierarchical action-aware memory design that routes history compression by interaction importance, complemented by a persistent memory bank that maintains event-update and object-identity tokens across long rollouts. Experiments show that ActWorld supports both flexible navigation and rich object interaction within a single model, substantially improving interaction fidelity over navigation-only baselines without sacrificing viewpoint control. Project page is available at https://interactwm.github.io/ActWorld.