EgoForge: Simulador Egocéntrico del Mundo Orientado a Objetivos
EgoForge: Goal-Directed Egocentric World Simulator
March 20, 2026
Autores: Yifan Shen, Jiateng Liu, Xinzhuo Li, Yuanzhe Liu, Bingxuan Li, Houze Yang, Wenqi Jia, Yijiang Li, Tianjiao Yu, James Matthew Rehg, Xu Cao, Ismini Lourentzou
cs.AI
Resumen
Los modelos generativos de mundos han mostrado potencial para simular entornos dinámicos, aunque el video egocéntrico sigue siendo un desafío debido a los rápidos cambios de punto de vista, las frecuentes interacciones mano-objeto y los procedimientos dirigidos a metas cuya evolución depende de la intención humana latente. Los enfoques existentes se centran en la síntesis instruccional centrada en las manos con una evolución escénica limitada, realizan una traducción de vista estática sin modelar la dinámica de la acción, o dependen de una supervisión densa, como trayectorias de cámara, prefijos de video largos, captura multicámara sincronizada, etc. En este trabajo, presentamos EgoForge, un simulador de mundo egocéntrico dirigido a metas que genera rollos de video coherentes en primera persona a partir de entradas estáticas mínimas: una única imagen egocéntrica, una instrucción de alto nivel y una vista exocéntrica auxiliar opcional. Para mejorar la alineación de la intención y la consistencia temporal, proponemos VideoDiffusionNFT, una refinación a nivel de trayectoria guiada por recompensas que optimiza la consecución de la meta, la causalidad temporal, la consistencia escénica y la fidelidad perceptual durante el muestreo por difusión. Experimentos exhaustivos muestran que EgoForge logra ganancias consistentes en alineación semántica, estabilidad geométrica y fidelidad de movimiento sobre líneas base sólidas, así como un rendimiento robusto en experimentos con gafas inteligentes del mundo real.
English
Generative world models have shown promise for simulating dynamic environments, yet egocentric video remains challenging due to rapid viewpoint changes, frequent hand-object interactions, and goal-directed procedures whose evolution depends on latent human intent. Existing approaches either focus on hand-centric instructional synthesis with limited scene evolution, perform static view translation without modeling action dynamics, or rely on dense supervision, such as camera trajectories, long video prefixes, synchronized multicamera capture, etc. In this work, we introduce EgoForge, an egocentric goal-directed world simulator that generates coherent, first-person video rollouts from minimal static inputs: a single egocentric image, a high-level instruction, and an optional auxiliary exocentric view. To improve intent alignment and temporal consistency, we propose VideoDiffusionNFT, a trajectory-level reward-guided refinement that optimizes goal completion, temporal causality, scene consistency, and perceptual fidelity during diffusion sampling. Extensive experiments show EgoForge achieves consistent gains in semantic alignment, geometric stability, and motion fidelity over strong baselines, and robust performance in real-world smart-glasses experiments.