EgoForge : Simulateur Egocentrique du Monde Orienté par les Objectifs

Résumé

Les modèles génératifs de mondes ont montré des résultats prometteurs pour la simulation d'environnements dynamiques, mais la vidéo égocentrique reste difficile en raison des changements rapides de point de vue, des interactions fréquentes main-objet et des procédures dirigées par un but dont l'évolution dépend de l'intention humaine latente. Les approches existantes se concentrent soit sur la synthèse instructionnelle centrée sur la main avec une évolution limitée de la scène, effectuent une translation de vue statique sans modéliser la dynamique des actions, ou reposent sur une supervision dense, telle que des trajectoires de caméra, de longs préfixes vidéo, une capture multicaméra synchronisée, etc. Dans ce travail, nous présentons EgoForge, un simulateur de monde égocentrique dirigé par un but qui génère des déroulements vidéo cohérents à la première personne à partir d'entrées statiques minimales : une seule image égocentrique, une instruction de haut niveau et une vue exocentrique auxiliaire optionnelle. Pour améliorer l'alignement sur l'intention et la cohérence temporelle, nous proposons VideoDiffusionNFT, un raffinement guidé par récompense au niveau de la trajectoire qui optimise l'achèvement du but, la causalité temporelle, la cohérence de la scène et la fidélité perceptuelle pendant l'échantillonnage par diffusion. Des expériences approfondies montrent qu'EgoForge obtient des gains constants en alignement sémantique, stabilité géométrique et fidélité du mouvement par rapport à des bases de référence solides, ainsi que des performances robustes dans des expériences en conditions réelles sur lunettes intelligentes.

English

Generative world models have shown promise for simulating dynamic environments, yet egocentric video remains challenging due to rapid viewpoint changes, frequent hand-object interactions, and goal-directed procedures whose evolution depends on latent human intent. Existing approaches either focus on hand-centric instructional synthesis with limited scene evolution, perform static view translation without modeling action dynamics, or rely on dense supervision, such as camera trajectories, long video prefixes, synchronized multicamera capture, etc. In this work, we introduce EgoForge, an egocentric goal-directed world simulator that generates coherent, first-person video rollouts from minimal static inputs: a single egocentric image, a high-level instruction, and an optional auxiliary exocentric view. To improve intent alignment and temporal consistency, we propose VideoDiffusionNFT, a trajectory-level reward-guided refinement that optimizes goal completion, temporal causality, scene consistency, and perceptual fidelity during diffusion sampling. Extensive experiments show EgoForge achieves consistent gains in semantic alignment, geometric stability, and motion fidelity over strong baselines, and robust performance in real-world smart-glasses experiments.

EgoForge : Simulateur Egocentrique du Monde Orienté par les Objectifs

EgoForge: Goal-Directed Egocentric World Simulator

Résumé

Support