EgoCS-400K: Un Conjunto de Datos de Juego Egocéntrico para Modelos del Mundo

Resumen

El paso de la generación de video al modelado interactivo del mundo impone nuevas exigencias a los datos: más allá de videos con leyendas, los modelos del mundo requieren trayectorias video-acción-lenguaje alineadas temporalmente y fundamentadas en las acciones, el movimiento de la cámara, los estados y los eventos que impulsan los cambios futuros de la escena. Sin embargo, obtener tales datos a gran escala es difícil. Los conjuntos de datos de video web ofrecen una amplia cobertura visual, pero carecen de acciones ejecutables y estados fiables; los conjuntos de datos robóticos proporcionan supervisión de acciones y estados, pero son costosos y limitados en diversidad de escenas; y los simuladores existentes a menudo carecen de trayectorias de interacción a gran escala impulsadas por humanos. En este artículo, presentamos EgoCS-400K, un conjunto de datos egocéntrico de Counter-Strike a gran escala, basado en repeticiones, para modelos del mundo, construido a partir de demos de partidas profesionales de CS y CS2 que preservan las trayectorias de juego humano y permiten el análisis, la repetición, el renderizado y el alineamiento temporal. Extraemos estados del jugador, direcciones de visión, movimientos, entradas de teclado/botón, cambios de ángulo de visión, uso de armas, eventos del juego y contexto a nivel de ronda, y renderizamos videos limpios en primera persona a partir de las mismas trayectorias. EgoCS-400K contiene más de 400,000 videos en primera persona y 10,000 horas de juego de más de 1,000 partidas y 40,000 rondas, cubriendo 13 mapas y 10 puntos de vista de jugadores por ronda. Respaldan una variedad de tareas de modelado visual interactivo, incluyendo predicción futura condicionada a acciones, despliegue de escenas consciente de estados y eventos, descripción basada en repeticiones y comprensión de acciones egocéntricas del agente. Al conectar observaciones visuales con acciones humanas, movimiento de cámara, estados del juego y eventos a gran escala, EgoCS-400K sirve como un puente práctico entre videos web pasivos, simulación de juego controlable y costosos datos encarnados del mundo real.

English

The shift from video generation to interactive world modeling places new demands on data: beyond captioned videos, world models require temporally aligned video-action-language trajectories grounded in the actions, camera motion, states, and events that drive future scene changes. However, such data is difficult to obtain at scale. Web video datasets offer broad visual coverage but lack executable actions and reliable states; robotic datasets provide action and state supervision but are costly and limited in scene diversity; and existing simulators often lack large-scale human-driven interaction trajectories. In this paper, we introduce EgoCS-400K, a large-scale replay-grounded egocentric Counter-Strike dataset for world models, built from public professional CS and CS2 match demos that preserve human gameplay trajectories and enable parsing, replaying, rendering, and temporal alignment. We extract player states, view directions, movements, keyboard/button inputs, view-angle changes, weapon usage, game events, and round-level context, and render clean first-person videos from the same trajectories. EgoCS-400K contains over 400,000 first-person videos and 10,000 hours of gameplay from more than 1,000 matches and 40,000 rounds, covering 13 maps and 10 player viewpoints per round. It supports a range of interactive visual modeling tasks, including action-conditioned future prediction, state- and event-aware scene rollout, replay-grounded captioning, and agent egocentric action understanding. By connecting visual observations with human actions, camera motion, game states, and events at scale, EgoCS-400K serves as a practical bridge between passive web videos, controllable game simulation, and costly real-world embodied data.