EgoCS-400K: Um Conjunto de Dados de Jogabilidade Egocêntrica para Modelos de Mundo

Resumo

A transição da geração de vídeos para a modelagem interativa de mundos impõe novas demandas aos dados: além de vídeos legendados, modelos de mundo exigem trajetórias de vídeo-ação-linguagem temporalmente alinhadas e fundamentadas nas ações, movimentos de câmera, estados e eventos que impulsionam as mudanças futuras da cena. No entanto, esses dados são difíceis de obter em escala. Conjuntos de dados de vídeos da web oferecem ampla cobertura visual, mas carecem de ações executáveis e estados confiáveis; conjuntos de dados robóticos fornecem supervisão de ações e estados, porém são custosos e limitados em diversidade de cenas; e os simuladores existentes frequentemente não possuem trajetórias de interação em grande escala conduzidas por humanos. Neste artigo, apresentamos o EgoCS-400K, um conjunto de dados egocêntrico de Counter-Strike em larga escala, fundamentado em replay, para modelos de mundo, construído a partir de demos profissionais de partidas de CS e CS2 que preservam trajetórias de jogabilidade humana e permitem análise, replay, renderização e alinhamento temporal. Extraímos estados dos jogadores, direções de visão, movimentos, entradas de teclado/botão, mudanças de ângulo de visão, uso de armas, eventos do jogo e contexto ao nível de rodada, e renderizamos vídeos limpos em primeira pessoa a partir das mesmas trajetórias. O EgoCS-400K contém mais de 400.000 vídeos em primeira pessoa e 10.000 horas de jogabilidade de mais de 1.000 partidas e 40.000 rodadas, cobrindo 13 mapas e 10 pontos de vista de jogadores por rodada. Ele suporta uma variedade de tarefas de modelagem visual interativa, incluindo previsão futura condicionada a ação, roll-out de cena ciente de estados e eventos, legendagem fundamentada em replay e compreensão de ações egocêntricas do agente. Ao conectar observações visuais com ações humanas, movimento de câmera, estados do jogo e eventos em escala, o EgoCS-400K serve como uma ponte prática entre vídeos passivos da web, simulação controlável de jogos e dados incorporados do mundo real de alto custo.

English

The shift from video generation to interactive world modeling places new demands on data: beyond captioned videos, world models require temporally aligned video-action-language trajectories grounded in the actions, camera motion, states, and events that drive future scene changes. However, such data is difficult to obtain at scale. Web video datasets offer broad visual coverage but lack executable actions and reliable states; robotic datasets provide action and state supervision but are costly and limited in scene diversity; and existing simulators often lack large-scale human-driven interaction trajectories. In this paper, we introduce EgoCS-400K, a large-scale replay-grounded egocentric Counter-Strike dataset for world models, built from public professional CS and CS2 match demos that preserve human gameplay trajectories and enable parsing, replaying, rendering, and temporal alignment. We extract player states, view directions, movements, keyboard/button inputs, view-angle changes, weapon usage, game events, and round-level context, and render clean first-person videos from the same trajectories. EgoCS-400K contains over 400,000 first-person videos and 10,000 hours of gameplay from more than 1,000 matches and 40,000 rounds, covering 13 maps and 10 player viewpoints per round. It supports a range of interactive visual modeling tasks, including action-conditioned future prediction, state- and event-aware scene rollout, replay-grounded captioning, and agent egocentric action understanding. By connecting visual observations with human actions, camera motion, game states, and events at scale, EgoCS-400K serves as a practical bridge between passive web videos, controllable game simulation, and costly real-world embodied data.