ChatPaper.aiChatPaper

EgoForge: 목표 주도 자기 중심적 세계 시뮬레이터

EgoForge: Goal-Directed Egocentric World Simulator

March 20, 2026
저자: Yifan Shen, Jiateng Liu, Xinzhuo Li, Yuanzhe Liu, Bingxuan Li, Houze Yang, Wenqi Jia, Yijiang Li, Tianjiao Yu, James Matthew Rehg, Xu Cao, Ismini Lourentzou
cs.AI

초록

생성적 세계 모델은 동적 환경 시뮬레이션에서 가능성을 보여왔으나, 자기 중심적(egocentric) 영상은 급격한 시점 변화, 빈번한 손-객체 상호작용, 그리고 잠재적 인간 의도에 따라 진행되는 목표 지향적 절차로 인해 여전히 어려운 과제로 남아 있습니다. 기존 접근법들은 제한된 장면 변화를 수반하는 손 중심의 절차적 합성에 집중하거나, 동작 역학을 모델링하지 않은 정적 시점 변환을 수행하거나, 카메라 궤적, 긴 영상 접두사, 동기화된 다중 카메라 촬영 등과 같은 밀집 감독(dense supervision)에 의존합니다. 본 연구에서는 최소한의 정적 입력(단일 자기 중심 이미지, 고수준 지시사항, 선택적 보조 타인 중심(exocentric) 시야)으로부터 일관된 1인칭 영상 롤아웃(video rollout)을 생성하는 자기 중심 목표 지향 세계 시뮬레이터인 EgoForge를 소개합니다. 의도 정렬과 시간적 일관성을 향상시키기 위해, 확산 샘플링 과정에서 목표 달성, 시간적 인과관계, 장면 일관성 및 지각적 충실도를 최적화하는 궤적 수준 보안 가이드 정밀화(VideoDiffusionNFT)를 제안합니다. 광범위한 실험을 통해 EgoForge가 강력한 베이스라인 대비 의미론적 정렬, 기하학적 안정성 및 운동 충실도 측면에서 꾸준한 성능 향상을 달성하며, 실제 스마트 글래스 실험에서도 견고한 성능을 보여줌을 확인했습니다.
English
Generative world models have shown promise for simulating dynamic environments, yet egocentric video remains challenging due to rapid viewpoint changes, frequent hand-object interactions, and goal-directed procedures whose evolution depends on latent human intent. Existing approaches either focus on hand-centric instructional synthesis with limited scene evolution, perform static view translation without modeling action dynamics, or rely on dense supervision, such as camera trajectories, long video prefixes, synchronized multicamera capture, etc. In this work, we introduce EgoForge, an egocentric goal-directed world simulator that generates coherent, first-person video rollouts from minimal static inputs: a single egocentric image, a high-level instruction, and an optional auxiliary exocentric view. To improve intent alignment and temporal consistency, we propose VideoDiffusionNFT, a trajectory-level reward-guided refinement that optimizes goal completion, temporal causality, scene consistency, and perceptual fidelity during diffusion sampling. Extensive experiments show EgoForge achieves consistent gains in semantic alignment, geometric stability, and motion fidelity over strong baselines, and robust performance in real-world smart-glasses experiments.
PDF61March 24, 2026