EgoForge: Doelgericht Egocentrisch Wereldsimulator

Samenvatting

Generatieve wereldmodellen hebben potentie getoond voor het simuleren van dynamische omgevingen, maar egocentrische video blijft een uitdaging vanwege snelle gezichtspuntveranderingen, frequente hand-objectinteracties en doelgerichte procedures waarvan de evolutie afhangt van latente menselijke intentie. Bestaande benaderingen richten zich ofwel op hand-gecentreerde instructiesynthese met beperkte scène-evolutie, voeren statische beeldvertaling uit zonder actiedynamica te modelleren, of steunen op dichte supervisie, zoals cameratrajecten, lange videoprefixen, gesynchroniseerde multicamera-opnames, enz. In dit werk introduceren we EgoForge, een egocentrische, doelgerichte wereldsimulator die coherente, first-person videoreeksen genereert vanuit minimale statische inputs: een enkele egocentrische afbeelding, een hoogwaardige instructie en een optioneel auxilliair exocentrisch beeld. Om intentie-afstemming en temporele consistentie te verbeteren, stellen we VideoDiffusionNFT voor, een trajectniveau-verfijning met beloningsgeleiding die doelvoltooiing, temporele causaliteit, scène-consistentie en perceptuele geloofwaardigheid optimaliseert tijdens diffusie-sampling. Uitgebreide experimenten tonen aan dat EgoForge consistente verbeteringen bereikt in semantische afstemming, geometrische stabiliteit en bewegingsgeloofwaardigheid ten opzichte van sterke baseline-methoden, en robuuste prestaties levert in real-world experimenten met slimme brillen.

English

Generative world models have shown promise for simulating dynamic environments, yet egocentric video remains challenging due to rapid viewpoint changes, frequent hand-object interactions, and goal-directed procedures whose evolution depends on latent human intent. Existing approaches either focus on hand-centric instructional synthesis with limited scene evolution, perform static view translation without modeling action dynamics, or rely on dense supervision, such as camera trajectories, long video prefixes, synchronized multicamera capture, etc. In this work, we introduce EgoForge, an egocentric goal-directed world simulator that generates coherent, first-person video rollouts from minimal static inputs: a single egocentric image, a high-level instruction, and an optional auxiliary exocentric view. To improve intent alignment and temporal consistency, we propose VideoDiffusionNFT, a trajectory-level reward-guided refinement that optimizes goal completion, temporal causality, scene consistency, and perceptual fidelity during diffusion sampling. Extensive experiments show EgoForge achieves consistent gains in semantic alignment, geometric stability, and motion fidelity over strong baselines, and robust performance in real-world smart-glasses experiments.

EgoForge: Doelgericht Egocentrisch Wereldsimulator

EgoForge: Goal-Directed Egocentric World Simulator

Samenvatting

Support