WildWorld: Ein umfangreicher Datensatz für die dynamische Weltmodellierung mit Aktionen und explizitem Zustand für generative Action-Rollenspiele

Zusammenfassung

Die Theorie dynamischer Systeme und bestärkendes Lernen betrachten die Weltenentwicklung als Dynamik latenter Zustände, die durch Aktionen gesteuert wird, wobei visuelle Beobachtungen Teilinformationen über den Zustand liefern. Aktuelle Video-Weltmodelle versuchen, diese aktionsbedingte Dynamik aus Daten zu erlernen. Bestehende Datensätze entsprechen jedoch selten dieser Anforderung: Ihnen fehlt es typischerweise an diversen und semantisch bedeutungsvollen Aktionsräumen, und Aktionen sind direkt an visuelle Beobachtungen geknüpft statt durch zugrundeliegende Zustände vermittelt. Folglich sind Aktionen oft mit Pixeländerungen verflochten, was es Modellen erschwert, strukturierte Weltendynamik zu erlernen und konsistente Entwicklung über lange Zeithorizonte aufrechtzuerhalten. In diesem Artikel stellen wir WildWorld vor, einen groß angelegten Datensatz für aktionsbedingte Weltmodellierung mit expliziten Zustandsannotationen, automatisch gesammelt aus einem fotorealistischen AAA-Action-Rollenspiel (Monster Hunter: Wilds). WildWorld umfasst über 108 Millionen Frames und bietet mehr als 450 Aktionen, darunter Bewegung, Angriffe und Fertigkeitseinsatz, zusammen mit synchronisierten pro-Frame-Annotationen von Charakterskeletten, Weltzuständen, Kameraposen und Tiefenkarten. Wir leiten außerdem WildBench ab, um Modelle durch Aktionsfolgung und Zustandsausrichtung zu evaluieren. Umfangreiche Experimente zeigen anhaltende Herausforderungen bei der Modellierung semantisch reichhaltiger Aktionen und der Aufrechterhaltung langfristiger Zustandskonsistenz auf, was die Notwendigkeit zustandsbewusster Videogenerierung unterstreicht. Die Projektseite ist https://shandaai.github.io/wildworld-project/.

English

Dynamical systems theory and reinforcement learning view world evolution as latent-state dynamics driven by actions, with visual observations providing partial information about the state. Recent video world models attempt to learn this action-conditioned dynamics from data. However, existing datasets rarely match the requirement: they typically lack diverse and semantically meaningful action spaces, and actions are directly tied to visual observations rather than mediated by underlying states. As a result, actions are often entangled with pixel-level changes, making it difficult for models to learn structured world dynamics and maintain consistent evolution over long horizons. In this paper, we propose WildWorld, a large-scale action-conditioned world modeling dataset with explicit state annotations, automatically collected from a photorealistic AAA action role-playing game (Monster Hunter: Wilds). WildWorld contains over 108 million frames and features more than 450 actions, including movement, attacks, and skill casting, together with synchronized per-frame annotations of character skeletons, world states, camera poses, and depth maps. We further derive WildBench to evaluate models through Action Following and State Alignment. Extensive experiments reveal persistent challenges in modeling semantically rich actions and maintaining long-horizon state consistency, highlighting the need for state-aware video generation. The project page is https://shandaai.github.io/wildworld-project/.

WildWorld: Ein umfangreicher Datensatz für die dynamische Weltmodellierung mit Aktionen und explizitem Zustand für generative Action-Rollenspiele

WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPG

Zusammenfassung

Support