EgoCS-400K : un ensemble de données de gameplay égocentrique pour les modèles du monde

Résumé

Le passage de la génération vidéo à la modélisation interactive du monde impose de nouvelles exigences en matière de données : au-delà des vidéos légendées, les modèles du monde nécessitent des trajectoires vidéo-action-langage temporellement alignées, ancrées dans les actions, les mouvements de caméra, les états et les événements qui provoquent les changements de scène futurs. Cependant, ces données sont difficiles à obtenir à grande échelle. Les ensembles de données vidéo issues du web offrent une large couverture visuelle, mais manquent d'actions exécutables et d'états fiables ; les ensembles de données robotiques fournissent une supervision sur les actions et les états, mais sont coûteux et limités en diversité de scènes ; et les simulateurs existants manquent souvent de trajectoires d'interaction à grande échelle pilotées par des humains. Dans cet article, nous présentons EgoCS-400K, un vaste ensemble de données égocentriques de Counter-Strike ancrées dans des rejeux pour les modèles du monde, construit à partir de démos professionnelles de matchs CS et CS2 qui préservent les trajectoires de jeu humaines et permettent l'analyse, le rejeu, le rendu et l'alignement temporel. Nous extrayons les états des joueurs, les directions de vue, les mouvements, les entrées clavier/souris, les changements d'angle de vue, l'utilisation des armes, les événements de jeu et le contexte au niveau des manches, et nous rendons des vidéos propres à la première personne à partir des mêmes trajectoires. EgoCS-400K contient plus de 400 000 vidéos à la première personne et 10 000 heures de jeu provenant de plus de 1 000 matchs et 40 000 manches, couvrant 13 cartes et 10 points de vue de joueurs par manche. Il prend en charge une gamme de tâches de modélisation visuelle interactive, notamment la prédiction future conditionnée par l'action, le déroulement de scène conscient des états et des événements, le sous-titrage ancré dans le rejeu, et la compréhension des actions égocentriques des agents. En reliant les observations visuelles aux actions humaines, aux mouvements de caméra, aux états de jeu et aux événements à grande échelle, EgoCS-400K sert de pont pratique entre les vidéos web passives, la simulation de jeu contrôlable et les données coûteuses du monde réel incarné.

English

The shift from video generation to interactive world modeling places new demands on data: beyond captioned videos, world models require temporally aligned video-action-language trajectories grounded in the actions, camera motion, states, and events that drive future scene changes. However, such data is difficult to obtain at scale. Web video datasets offer broad visual coverage but lack executable actions and reliable states; robotic datasets provide action and state supervision but are costly and limited in scene diversity; and existing simulators often lack large-scale human-driven interaction trajectories. In this paper, we introduce EgoCS-400K, a large-scale replay-grounded egocentric Counter-Strike dataset for world models, built from public professional CS and CS2 match demos that preserve human gameplay trajectories and enable parsing, replaying, rendering, and temporal alignment. We extract player states, view directions, movements, keyboard/button inputs, view-angle changes, weapon usage, game events, and round-level context, and render clean first-person videos from the same trajectories. EgoCS-400K contains over 400,000 first-person videos and 10,000 hours of gameplay from more than 1,000 matches and 40,000 rounds, covering 13 maps and 10 player viewpoints per round. It supports a range of interactive visual modeling tasks, including action-conditioned future prediction, state- and event-aware scene rollout, replay-grounded captioning, and agent egocentric action understanding. By connecting visual observations with human actions, camera motion, game states, and events at scale, EgoCS-400K serves as a practical bridge between passive web videos, controllable game simulation, and costly real-world embodied data.