EgoForge: Simulador Egocêntrico de Mundos Orientado a Objetivos

Resumo

Os modelos generativos de mundos têm demonstrado potencial para simular ambientes dinâmicos, mas o vídeo egocêntrico continua a ser um desafio devido a mudanças rápidas de perspectiva, interações frequentes mão-objeto e procedimentos direcionados a objetivos cuja evolução depende da intenção humana latente. As abordagens existentes concentram-se na síntese instrucional centrada nas mãos com evolução limitada da cena, realizam tradução de vista estática sem modelar a dinâmica de ações ou dependem de supervisão densa, como trajetórias de câmera, prefixos longos de vídeo, captura multicâmera sincronizada, etc. Neste trabalho, introduzimos o EgoForge, um simulador de mundo egocêntrico direcionado a objetivos que gera rollouts de vídeo coerentes em primeira pessoa a partir de entradas estáticas mínimas: uma única imagem egocêntrica, uma instrução de alto nível e uma vista exocêntrica auxiliar opcional. Para melhorar o alinhamento da intenção e a consistência temporal, propomos o VideoDiffusionNFT, um refinamento guiado por recompensa a nível de trajetória que otimiza a conclusão do objetivo, a causalidade temporal, a consistência da cena e a fidelidade perceptual durante a amostragem por difusão. Experimentos extensivos mostram que o EgoForge alcança ganhos consistentes no alinhamento semântico, estabilidade geométrica e fidelidade de movimento em relação a baselines fortes, e desempenho robusto em experimentos do mundo real com óculos inteligentes.

English

Generative world models have shown promise for simulating dynamic environments, yet egocentric video remains challenging due to rapid viewpoint changes, frequent hand-object interactions, and goal-directed procedures whose evolution depends on latent human intent. Existing approaches either focus on hand-centric instructional synthesis with limited scene evolution, perform static view translation without modeling action dynamics, or rely on dense supervision, such as camera trajectories, long video prefixes, synchronized multicamera capture, etc. In this work, we introduce EgoForge, an egocentric goal-directed world simulator that generates coherent, first-person video rollouts from minimal static inputs: a single egocentric image, a high-level instruction, and an optional auxiliary exocentric view. To improve intent alignment and temporal consistency, we propose VideoDiffusionNFT, a trajectory-level reward-guided refinement that optimizes goal completion, temporal causality, scene consistency, and perceptual fidelity during diffusion sampling. Extensive experiments show EgoForge achieves consistent gains in semantic alignment, geometric stability, and motion fidelity over strong baselines, and robust performance in real-world smart-glasses experiments.

EgoForge: Simulador Egocêntrico de Mundos Orientado a Objetivos

EgoForge: Goal-Directed Egocentric World Simulator

Resumo

Support