EgoCS-400K: Een egocentrische gameplaydataset voor wereldmodellen

Samenvatting

De verschuiving van videogeneratie naar interactief wereldmodelleren stelt nieuwe eisen aan data: naast video's met bijschriften hebben wereldmodellen temporeel uitgelijnde video-actie-taaltrajecten nodig die zijn gebaseerd op de acties, camerabewegingen, toestanden en gebeurtenissen die toekomstige scèneveranderingen aandrijven. Dergelijke data is echter moeilijk op grote schaal te verkrijgen. Webvideodatasets bieden een brede visuele dekking, maar missen uitvoerbare acties en betrouwbare toestanden; robotdatasets bieden supervisie voor acties en toestanden, maar zijn kostbaar en beperkt in scenariodiversiteit; en bestaande simulatoren missen vaak grootschalige door mensen aangestuurde interactietrajecten. In dit artikel introduceren we EgoCS-400K, een grootschalige, op replay gebaseerde egocentrische Counter-Strike-dataset voor wereldmodellen, opgebouwd uit openbare professionele CS- en CS2-wedstrijddemo's die menselijke gameplaytrajecten behouden en het parseren, afspelen, renderen en temporeel uitlijnen mogelijk maken. We extraheren spelertoestanden, kijkrichtingen, bewegingen, toetsenbord-/knopinputs, kijkhoekveranderingen, wapengebruik, spelgebeurtenissen en rondecontext, en renderen schone eerstepersoonsvideo's van dezelfde trajecten. EgoCS-400K bevat meer dan 400.000 eerstepersoonsvideo's en 10.000 uur gameplay van meer dan 1.000 wedstrijden en 40.000 rondes, verdeeld over 13 kaarten en 10 spelersperspectieven per ronde. Het ondersteunt een reeks interactieve visuele modelleringstaken, waaronder actie-geconditioneerde toekomstvoorspelling, toestands- en gebeurtenisbewuste scène-uitrol, op replay gebaseerde bijschrijving en begrip van egocentrische acties door agenten. Door visuele waarnemingen op grote schaal te verbinden met menselijke acties, camerabewegingen, speltoestanden en gebeurtenissen, fungeert EgoCS-400K als een praktische brug tussen passieve webvideo's, controleerbare spelsimulatie en kostbare, in de echte wereld ingebedde data.

English

The shift from video generation to interactive world modeling places new demands on data: beyond captioned videos, world models require temporally aligned video-action-language trajectories grounded in the actions, camera motion, states, and events that drive future scene changes. However, such data is difficult to obtain at scale. Web video datasets offer broad visual coverage but lack executable actions and reliable states; robotic datasets provide action and state supervision but are costly and limited in scene diversity; and existing simulators often lack large-scale human-driven interaction trajectories. In this paper, we introduce EgoCS-400K, a large-scale replay-grounded egocentric Counter-Strike dataset for world models, built from public professional CS and CS2 match demos that preserve human gameplay trajectories and enable parsing, replaying, rendering, and temporal alignment. We extract player states, view directions, movements, keyboard/button inputs, view-angle changes, weapon usage, game events, and round-level context, and render clean first-person videos from the same trajectories. EgoCS-400K contains over 400,000 first-person videos and 10,000 hours of gameplay from more than 1,000 matches and 40,000 rounds, covering 13 maps and 10 player viewpoints per round. It supports a range of interactive visual modeling tasks, including action-conditioned future prediction, state- and event-aware scene rollout, replay-grounded captioning, and agent egocentric action understanding. By connecting visual observations with human actions, camera motion, game states, and events at scale, EgoCS-400K serves as a practical bridge between passive web videos, controllable game simulation, and costly real-world embodied data.