WorldCam: Interaktive autoregressive 3D-Spielwelten mit Kamerapose als vereinheitlichende geometrische Repräsentation

Zusammenfassung

Jüngste Fortschritte bei Video-Diffusion-Transformatoren haben interaktive Spielweltmodelle ermöglicht, die Nutzern die Erkundung generierter Umgebungen über längere Zeiträume hinweg erlauben. Allerdings kämpfen bestehende Ansätze mit präziser Aktionssteuerung und langzeitlicher 3D-Konsistenz. Die meisten bisherigen Arbeiten behandeln Benutzeraktionen als abstrakte Konditionierungssignale und übersehen die fundamentale geometrische Kopplung zwischen Aktionen und der 3D-Welt, wonach Aktionen relative Kamerabewegungen induzieren, die sich zu einer globalen Kamerapose innerhalb einer 3D-Welt akkumulieren. In dieser Arbeit etablieren wir die Kamerapose als vereinheitlichende geometrische Repräsentation, um unmittelbare Aktionssteuerung und langfristige 3D-Konsistenz gemeinsam zu verankern. Erstens definieren wir einen physikbasierten kontinuierlichen Aktionsraum und repräsentieren Benutzereingaben in der Lie-Algebra, um präzise 6-DoF-Kameraposen abzuleiten, die über einen Camera Embedder in das generative Modell injiziert werden, um eine genaue Aktionsausrichtung zu gewährleisten. Zweitens nutzen wir globale Kameraposen als räumliche Indizes, um relevante vergangene Beobachtungen abzurufen, was ein geometrisch konsistentes Wiederaufsuchen von Orten während langandauernder Navigation ermöglicht. Um diese Forschung zu unterstützen, führen wir einen umfangreichen Datensatz ein, der 3.000 Minuten authentischen menschlichen Gameplays mit annotierten Kameratrajektorien und Textbeschreibungen umfasst. Umfangreiche Experimente zeigen, dass unser Ansatz state-of-the-art interaktive Spielweltmodelle in Bezug auf Aktionssteuerbarkeit, langzeitliche visuelle Qualität und 3D-räumliche Konsistenz erheblich übertrifft.

English

Recent advances in video diffusion transformers have enabled interactive gaming world models that allow users to explore generated environments over extended horizons. However, existing approaches struggle with precise action control and long-horizon 3D consistency. Most prior works treat user actions as abstract conditioning signals, overlooking the fundamental geometric coupling between actions and the 3D world, whereby actions induce relative camera motions that accumulate into a global camera pose within a 3D world. In this paper, we establish camera pose as a unifying geometric representation to jointly ground immediate action control and long-term 3D consistency. First, we define a physics-based continuous action space and represent user inputs in the Lie algebra to derive precise 6-DoF camera poses, which are injected into the generative model via a camera embedder to ensure accurate action alignment. Second, we use global camera poses as spatial indices to retrieve relevant past observations, enabling geometrically consistent revisiting of locations during long-horizon navigation. To support this research, we introduce a large-scale dataset comprising 3,000 minutes of authentic human gameplay annotated with camera trajectories and textual descriptions. Extensive experiments show that our approach substantially outperforms state-of-the-art interactive gaming world models in action controllability, long-horizon visual quality, and 3D spatial consistency.

WorldCam: Interaktive autoregressive 3D-Spielwelten mit Kamerapose als vereinheitlichende geometrische Repräsentation

WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation

Zusammenfassung

Support