EgoForge: Zielgerichteter Egocentrischer Weltensimulator

Zusammenfassung

Generative Weltmodelle haben sich als vielversprechend für die Simulation dynamischer Umgebungen erwiesen, doch egozentrische Videos bleiben aufgrund schneller Blickwinkeländerungen, häufiger Hand-Objekt-Interaktionen und zielgerichteter Prozeduren, deren Verlauf von latenten menschlichen Intentionen abhängt, eine Herausforderung. Bestehende Ansätze konzentrieren sich entweder auf handzentrierte Instruktionssynthese mit begrenzter Szenenentwicklung, führen statische Blickübersetzungen ohne Modellierung von Aktionsdynamiken durch oder sind auf umfangreiche Supervision angewiesen, wie z.B. Kameratrajektorien, lange Videopräfixe, synchronisierte Multikameraaufnahmen usw. In dieser Arbeit stellen wir EgoForge vor, einen egozentrischen, zielgerichteten Weltsimulator, der kohärente, egozentrische Video-Rollouts aus minimalen statischen Eingaben erzeugt: einem einzelnen egozentrischen Bild, einer hochleveligen Anweisung und einer optionalen auxiliären exozentrischen Ansicht. Um die Intentionsausrichtung und zeitliche Konsistenz zu verbessern, schlagen wir VideoDiffusionNFT vor, eine trajektorienbasierte, belohnungsgeführte Verfeinerung, die während des Diffusions-Samplings die Zielerreichung, zeitliche Kausalität, Szenenkonsistenz und perzeptuelle Qualität optimiert. Umfangreiche Experimente zeigen, dass EgoForge gegenüber starken Baselines konsistente Verbesserungen bei semantischer Ausrichtung, geometrischer Stabilität und Bewegungsqualität erzielt und eine robuste Leistung in realen Experimenten mit Smart Glasses aufweist.

English

Generative world models have shown promise for simulating dynamic environments, yet egocentric video remains challenging due to rapid viewpoint changes, frequent hand-object interactions, and goal-directed procedures whose evolution depends on latent human intent. Existing approaches either focus on hand-centric instructional synthesis with limited scene evolution, perform static view translation without modeling action dynamics, or rely on dense supervision, such as camera trajectories, long video prefixes, synchronized multicamera capture, etc. In this work, we introduce EgoForge, an egocentric goal-directed world simulator that generates coherent, first-person video rollouts from minimal static inputs: a single egocentric image, a high-level instruction, and an optional auxiliary exocentric view. To improve intent alignment and temporal consistency, we propose VideoDiffusionNFT, a trajectory-level reward-guided refinement that optimizes goal completion, temporal causality, scene consistency, and perceptual fidelity during diffusion sampling. Extensive experiments show EgoForge achieves consistent gains in semantic alignment, geometric stability, and motion fidelity over strong baselines, and robust performance in real-world smart-glasses experiments.

EgoForge: Zielgerichteter Egocentrischer Weltensimulator

EgoForge: Goal-Directed Egocentric World Simulator

Zusammenfassung

Support