EgoCS-400K: Эгоцентрический набор данных игрового процесса для мировых моделей

Аннотация

Переход от генерации видео к интерактивному моделированию мира предъявляет новые требования к данным: помимо видео с подписями, мировым моделям необходимы темпорально согласованные траектории «видео–действие–язык», привязанные к действиям, движениям камеры, состояниям и событиям, которые определяют будущие изменения сцены. Однако такие данные сложно получить в больших масштабах. Наборы веб-видео обеспечивают широкий визуальный охват, но лишены выполнимых действий и надёжных состояний; роботизированные наборы данных содержат информацию о действиях и состояниях, но дороги и ограничены в разнообразии сцен; существующие симуляторы зачастую не имеют крупномасштабных траекторий взаимодействия, управляемых человеком. В данной статье мы представляем EgoCS-400K — крупномасштабный набор эгоцентрических данных Counter-Strike, основанных на воспроизведении и предназначенных для мировых моделей. Он построен на профессиональных демо-записях матчей CS и CS2 общего доступа, которые сохраняют траектории игры человека и обеспечивают возможность парсинга, воспроизведения, рендеринга и темпорального согласования. Мы извлекаем состояния игроков, направления взгляда, движения, ввод с клавиатуры/кнопок, изменения угла обзора, использование оружия, игровые события и контекст на уровне раундов, а также рендерим чистые видео от первого лица по тем же траекториям. EgoCS-400K содержит более 400 000 видеороликов от первого лица и 10 000 часов геймплея из более чем 1 000 матчей и 40 000 раундов, охватывающих 13 карт и 10 точек обзора игроков на раунд. Набор поддерживает ряд задач интерактивного визуального моделирования, включая предсказание будущего, обусловленное действиями, развёртывание сцены с учётом состояния и событий, подписывание на основе воспроизведения, а также понимание эгоцентрических действий агента. Соединяя в масштабе визуальные наблюдения с человеческими действиями, движениями камеры, состояниями игры и событиями, EgoCS-400K служит практическим мостом между пассивными веб-видео, управляемой игровой симуляцией и дорогостоящими данными реального воплощённого опыта.

English

The shift from video generation to interactive world modeling places new demands on data: beyond captioned videos, world models require temporally aligned video-action-language trajectories grounded in the actions, camera motion, states, and events that drive future scene changes. However, such data is difficult to obtain at scale. Web video datasets offer broad visual coverage but lack executable actions and reliable states; robotic datasets provide action and state supervision but are costly and limited in scene diversity; and existing simulators often lack large-scale human-driven interaction trajectories. In this paper, we introduce EgoCS-400K, a large-scale replay-grounded egocentric Counter-Strike dataset for world models, built from public professional CS and CS2 match demos that preserve human gameplay trajectories and enable parsing, replaying, rendering, and temporal alignment. We extract player states, view directions, movements, keyboard/button inputs, view-angle changes, weapon usage, game events, and round-level context, and render clean first-person videos from the same trajectories. EgoCS-400K contains over 400,000 first-person videos and 10,000 hours of gameplay from more than 1,000 matches and 40,000 rounds, covering 13 maps and 10 player viewpoints per round. It supports a range of interactive visual modeling tasks, including action-conditioned future prediction, state- and event-aware scene rollout, replay-grounded captioning, and agent egocentric action understanding. By connecting visual observations with human actions, camera motion, game states, and events at scale, EgoCS-400K serves as a practical bridge between passive web videos, controllable game simulation, and costly real-world embodied data.