EgoForge: Simulatore Egocentrico del Mondo Orientato agli Obiettivi

Abstract

I modelli generativi di mondi hanno mostrato potenzialità nella simulazione di ambienti dinamici, ma i video egocentrici rimangono una sfida a causa dei rapidi cambiamenti del punto di vista, delle frequenti interazioni mano-oggetto e delle procedure finalizzate la cui evoluzione dipende dall'intento umano latente. Gli approcci esistenti si concentrano sulla sintesi istruzionale centrata sulla mano con un'evoluzione della scena limitata, eseguono una traduzione di vista statica senza modellare la dinamica delle azioni, o si basano su supervisione densa, come traiettorie della telecamera, prefissi video lunghi, acquisizione multicamera sincronizzata, ecc. In questo lavoro, introduciamo EgoForge, un simulatore di mondo egocentrico finalizzato che genera rollout video in prima persona coerenti a partire da input statici minimi: una singola immagine egocentrica, un'istruzione di alto livello e una vista esocentrica ausiliaria opzionale. Per migliorare l'allineamento all'intento e la coerenza temporale, proponiamo VideoDiffusionNFT, un perfezionamento guidato da ricompensa a livello di traiettoria che ottimizza il completamento dell'obiettivo, la causalità temporale, la coerenza della scena e la fedeltà percettiva durante il campionamento per diffusione. Esperimenti estensivi mostrano che EgoForge ottiene guadagni consistenti nell'allineamento semantico, nella stabilità geometrica e nella fedeltà del movimento rispetto a baseline solide, e prestazioni robuste in esperimenti con occhiali intelligenti nel mondo reale.

English

Generative world models have shown promise for simulating dynamic environments, yet egocentric video remains challenging due to rapid viewpoint changes, frequent hand-object interactions, and goal-directed procedures whose evolution depends on latent human intent. Existing approaches either focus on hand-centric instructional synthesis with limited scene evolution, perform static view translation without modeling action dynamics, or rely on dense supervision, such as camera trajectories, long video prefixes, synchronized multicamera capture, etc. In this work, we introduce EgoForge, an egocentric goal-directed world simulator that generates coherent, first-person video rollouts from minimal static inputs: a single egocentric image, a high-level instruction, and an optional auxiliary exocentric view. To improve intent alignment and temporal consistency, we propose VideoDiffusionNFT, a trajectory-level reward-guided refinement that optimizes goal completion, temporal causality, scene consistency, and perceptual fidelity during diffusion sampling. Extensive experiments show EgoForge achieves consistent gains in semantic alignment, geometric stability, and motion fidelity over strong baselines, and robust performance in real-world smart-glasses experiments.

EgoForge: Simulatore Egocentrico del Mondo Orientato agli Obiettivi

EgoForge: Goal-Directed Egocentric World Simulator

Abstract

Support