ChatPaper.aiChatPaper

3D 및 4D 세계 모델링: 연구 동향

3D and 4D World Modeling: A Survey

September 4, 2025
저자: Lingdong Kong, Wesley Yang, Jianbiao Mei, Youquan Liu, Ao Liang, Dekai Zhu, Dongyue Lu, Wei Yin, Xiaotao Hu, Mingkai Jia, Junyuan Deng, Kaiwen Zhang, Yang Wu, Tianyi Yan, Shenyuan Gao, Song Wang, Linfeng Li, Liang Pan, Yong Liu, Jianke Zhu, Wei Tsang Ooi, Steven C. H. Hoi, Ziwei Liu
cs.AI

초록

세계 모델링(world modeling)은 AI 연구의 초석으로 자리 잡으며, 에이전트가 자신이 처한 동적 환경을 이해하고 표현하며 예측할 수 있게 해주는 중요한 기술로 부상했습니다. 기존 연구는 주로 2D 이미지 및 비디오 데이터를 위한 생성적 방법에 초점을 맞추었으나, RGB-D 이미지, 점유 그리드(occupancy grid), LiDAR 포인트 클라우드와 같은 네이티브 3D 및 4D 표현을 활용한 대규모 장면 모델링 연구의 급속한 성장을 간과했습니다. 동시에, '세계 모델(world model)'에 대한 표준화된 정의와 분류 체계의 부재는 문헌에서 파편적이고 때로는 일관성 없는 주장을 초래했습니다. 본 설문 조사는 이러한 격차를 해소하기 위해 3D 및 4D 세계 모델링과 생성을 명시적으로 다루는 첫 번째 포괄적인 리뷰를 제시합니다. 우리는 정확한 정의를 확립하고, 비디오 기반(VideoGen), 점유 기반(OccGen), LiDAR 기반(LiDARGen) 접근법을 아우르는 구조화된 분류 체계를 소개하며, 3D/4D 설정에 맞춰진 데이터셋과 평가 지표를 체계적으로 정리합니다. 또한 실용적인 응용 사례를 논의하고, 해결되지 않은 과제를 식별하며, 유망한 연구 방향을 강조함으로써 이 분야의 발전을 위한 일관적이고 기초적인 참고 자료를 제공하고자 합니다. 기존 문헌에 대한 체계적인 요약은 https://github.com/worldbench/survey에서 확인할 수 있습니다.
English
World modeling has become a cornerstone in AI research, enabling agents to understand, represent, and predict the dynamic environments they inhabit. While prior work largely emphasizes generative methods for 2D image and video data, they overlook the rapidly growing body of work that leverages native 3D and 4D representations such as RGB-D imagery, occupancy grids, and LiDAR point clouds for large-scale scene modeling. At the same time, the absence of a standardized definition and taxonomy for ``world models'' has led to fragmented and sometimes inconsistent claims in the literature. This survey addresses these gaps by presenting the first comprehensive review explicitly dedicated to 3D and 4D world modeling and generation. We establish precise definitions, introduce a structured taxonomy spanning video-based (VideoGen), occupancy-based (OccGen), and LiDAR-based (LiDARGen) approaches, and systematically summarize datasets and evaluation metrics tailored to 3D/4D settings. We further discuss practical applications, identify open challenges, and highlight promising research directions, aiming to provide a coherent and foundational reference for advancing the field. A systematic summary of existing literature is available at https://github.com/worldbench/survey
PDF474September 11, 2025