EgoForge: Эгоцентричный симулятор мира с целевым управлением
EgoForge: Goal-Directed Egocentric World Simulator
March 20, 2026
Авторы: Yifan Shen, Jiateng Liu, Xinzhuo Li, Yuanzhe Liu, Bingxuan Li, Houze Yang, Wenqi Jia, Yijiang Li, Tianjiao Yu, James Matthew Rehg, Xu Cao, Ismini Lourentzou
cs.AI
Аннотация
Генеративные мировые модели продемонстрировали потенциал для моделирования динамических сред, однако эгоцентрическое видео остается сложной задачей из-за быстрой смены точек обзора, частых взаимодействий рук с объектами и целенаправленных процедур, ход которых зависит от латентного человеческого намерения. Существующие подходы либо сосредоточены на синтезе инструкций с центрированием на руках при ограниченной эволюции сцены, либо выполняют трансляцию статического вида без моделирования динамики действий, либо полагаются на плотную разметку, такую как траектории камеры, длинные видео-префиксы, синхронизированную многокамерную съемку и т.д. В данной работе мы представляем EgoForge — симулятор эгоцентрического целенаправленного мира, который генерирует согласованные ролики видео от первого лица на основе минимальных статических входных данных: одного эгоцентрического изображения, высокоуровневой инструкции и опционального вспомогательного экзоцентрического вида. Для улучшения соответствия намерению и временной согласованности мы предлагаем VideoDiffusionNFT, метод рефинмента на уровне траектории с управляемым вознаграждением, который оптимизирует достижение цели, временную причинность, согласованность сцены и перцептивное качество в процессе сэмплирования диффузионной модели. Многочисленные эксперименты показывают, что EgoForge достигает последовательного улучшения в семантическом соответствии, геометрической стабильности и достоверности движения по сравнению с сильными базовыми методами, а также демонстрирует robustную производительность в экспериментах с реальными умными очками.
English
Generative world models have shown promise for simulating dynamic environments, yet egocentric video remains challenging due to rapid viewpoint changes, frequent hand-object interactions, and goal-directed procedures whose evolution depends on latent human intent. Existing approaches either focus on hand-centric instructional synthesis with limited scene evolution, perform static view translation without modeling action dynamics, or rely on dense supervision, such as camera trajectories, long video prefixes, synchronized multicamera capture, etc. In this work, we introduce EgoForge, an egocentric goal-directed world simulator that generates coherent, first-person video rollouts from minimal static inputs: a single egocentric image, a high-level instruction, and an optional auxiliary exocentric view. To improve intent alignment and temporal consistency, we propose VideoDiffusionNFT, a trajectory-level reward-guided refinement that optimizes goal completion, temporal causality, scene consistency, and perceptual fidelity during diffusion sampling. Extensive experiments show EgoForge achieves consistent gains in semantic alignment, geometric stability, and motion fidelity over strong baselines, and robust performance in real-world smart-glasses experiments.