ActWorld: от исследуемой к интерактивной мировой модели с помощью памяти, учитывающей действия

Аннотация

Интерактивные мировые модели стремятся моделировать динамику окружающей среды при действиях пользователя в реальном времени. Однако их словарь действий в значительной степени ограничен навигацией: большинство действий соответствуют перемещению (например, ходьба, поворот, осмотр), в то время как взаимодействие с объектами в сцене (например, поднять тарелки, открыть двери или вызвать физические реакции) либо отсутствует, либо ограничено игровыми доменами, либо относится к сценариям от запроса до полного видео. Полученные миры визуально исследуемы, но не по-настоящему интерактивны. В данной работе мы представляем ActWorld — интерактивную мировую модель, которая расширяет предыдущие генераторы, ориентированные на навигацию, для поддержки взаимодействия с объектами во время развертывания в рамках чанково-авторегрессионного подхода. Мы утверждаем, что разрыв между навигацией и взаимодействием обусловлен двумя узкими местами. Во-первых, узкое место в данных: отсутствие данных о взаимодействии человека с объектами с точными и плотными метками. Во-вторых, узкое место в памяти: сжатие истории с уклоном на недавние события в существующих мировых моделях отбрасывает кадры переходов событий, которые причинно определяют последующие состояния объектов, что приводит к патологии забывания действий. Со стороны данных мы создали набор данных из 100 000 видео взаимодействий, каждое из которых аннотировано подписями к каждому чанку с помощью цепного рассуждения. Со стороны модели мы вводим иерархическую архитектуру памяти, осведомленной о действиях, которая направляет сжатие истории в зависимости от важности взаимодействия, дополненную постоянным банком памяти, сохраняющим токены обновления событий и идентификации объектов на протяжении длительных развертываний. Эксперименты показывают, что ActWorld поддерживает как гибкую навигацию, так и богатое взаимодействие с объектами в рамках одной модели, значительно улучшая точность взаимодействия по сравнению с базовыми моделями, ориентированными только на навигацию, без потери контроля над точкой обзора. Страница проекта доступна по адресу https://interactwm.github.io/ActWorld.

English

Interactive world models aim to simulate environment dynamics under real-time user actions. However, their action vocabulary is largely confined to navigation: most actions correspond to motion (e.g., walk, turn, look around), while interaction with objects in the scene (e.g., pick up plates, open doors, or trigger physical responses) is either absent, restricted to game domains, or relegated to prompt-to-full-video scenarios. The resulting worlds are visually explorable but not truly actionable. In this work, we present ActWorld, an interactive world model that extends prior navigation-centric generators to support mid-rollout object interaction within a chunk-autoregressive framework. We argue that the navigation-interaction gap stems from two bottlenecks. First, a data bottleneck: the lack of human-object interaction data with accurate, dense labels. Second, a memory bottleneck: recency-biased history compression in existing world models discards the event-transition frames that causally determine subsequent object states, leading to an action-forgetting pathology. On the data side, we construct a 100K interaction video dataset, each annotated with per-chunk captions via chain-of-thought reasoning. On the model side, we introduce a hierarchical action-aware memory design that routes history compression by interaction importance, complemented by a persistent memory bank that maintains event-update and object-identity tokens across long rollouts. Experiments show that ActWorld supports both flexible navigation and rich object interaction within a single model, substantially improving interaction fidelity over navigation-only baselines without sacrificing viewpoint control. Project page is available at https://interactwm.github.io/ActWorld.