EgoCS-400K: Ein egozentrischer Gameplay-Datensatz für Weltmodelle

Zusammenfassung

Der Wandel von der Videogenerierung hin zum interaktiven Weltmodellieren stellt neue Anforderungen an Daten: Neben untertitelten Videos benötigen Weltmodelle zeitlich ausgerichtete Video-Aktion-Sprache-Trajektorien, die in den Aktionen, Kamerabewegungen, Zuständen und Ereignissen verankert sind, die zukünftige Szenenveränderungen antreiben. Allerdings sind solche Daten nur schwer in großem Umfang zu erhalten. Webvideodatensätze bieten eine breite visuelle Abdeckung, aber es fehlt an ausführbaren Aktionen und zuverlässigen Zuständen; Robotikdatensätze liefern Aktionen und Zustandsüberwachung, sind jedoch teuer und in der Szenenvielfalt eingeschränkt; und bestehenden Simulatoren fehlt es oft an groß angelegten, von Menschen gesteuerten Interaktionstrajektorien. In dieser Arbeit stellen wir EgoCS-400K vor, einen groß angelegten, wiedergabegestützten egozentrischen Counter-Strike-Datensatz für Weltmodelle, der aus öffentlichen professionellen CS- und CS2-Matchdemos erstellt wurde, die menschliche Spielverlaufstrajektorien bewahren und das Analysieren, Wiederabspielen, Rendern und zeitliche Ausrichten ermöglichen. Wir extrahieren Spielerzustände, Blickrichtungen, Bewegungen, Tastatur-/Tasteneingaben, Blickwinkeländerungen, Waffennutzung, Spieleereignisse und Kontext auf Rundenebene und rendern saubere Ego-Perspektiven-Videos aus denselben Trajektorien. EgoCS-400K enthält über 400.000 Ego-Perspektiven-Videos und 10.000 Spielstunden aus mehr als 1.000 Spielen und 40.000 Runden, die 13 Karten und 10 Spielerperspektiven pro Runde abdecken. Es unterstützt eine Reihe interaktiver visueller Modellierungsaufgaben, darunter aktionsabhängige Vorhersage zukünftiger Zustände, zustands- und ereignisbewusste Szenenentwicklung, wiedergabegestützte Bildunterschreibung und egozentrisches Aktionsverständnis von Agenten. Indem es visuelle Beobachtungen mit menschlichen Aktionen, Kamerabewegungen, Spielzuständen und Ereignissen in großem Maßstab verbindet, dient EgoCS-400K als praktische Brücke zwischen passiven Webvideos, steuerbarer Spielsimulation und kostspieligen realen Embodied-Daten.

English

The shift from video generation to interactive world modeling places new demands on data: beyond captioned videos, world models require temporally aligned video-action-language trajectories grounded in the actions, camera motion, states, and events that drive future scene changes. However, such data is difficult to obtain at scale. Web video datasets offer broad visual coverage but lack executable actions and reliable states; robotic datasets provide action and state supervision but are costly and limited in scene diversity; and existing simulators often lack large-scale human-driven interaction trajectories. In this paper, we introduce EgoCS-400K, a large-scale replay-grounded egocentric Counter-Strike dataset for world models, built from public professional CS and CS2 match demos that preserve human gameplay trajectories and enable parsing, replaying, rendering, and temporal alignment. We extract player states, view directions, movements, keyboard/button inputs, view-angle changes, weapon usage, game events, and round-level context, and render clean first-person videos from the same trajectories. EgoCS-400K contains over 400,000 first-person videos and 10,000 hours of gameplay from more than 1,000 matches and 40,000 rounds, covering 13 maps and 10 player viewpoints per round. It supports a range of interactive visual modeling tasks, including action-conditioned future prediction, state- and event-aware scene rollout, replay-grounded captioning, and agent egocentric action understanding. By connecting visual observations with human actions, camera motion, game states, and events at scale, EgoCS-400K serves as a practical bridge between passive web videos, controllable game simulation, and costly real-world embodied data.