ChatPaper.aiChatPaper

Modellazione 3D e 4D del Mondo: Una Rassegna

3D and 4D World Modeling: A Survey

September 4, 2025
Autori: Lingdong Kong, Wesley Yang, Jianbiao Mei, Youquan Liu, Ao Liang, Dekai Zhu, Dongyue Lu, Wei Yin, Xiaotao Hu, Mingkai Jia, Junyuan Deng, Kaiwen Zhang, Yang Wu, Tianyi Yan, Shenyuan Gao, Song Wang, Linfeng Li, Liang Pan, Yong Liu, Jianke Zhu, Wei Tsang Ooi, Steven C. H. Hoi, Ziwei Liu
cs.AI

Abstract

La modellazione del mondo è diventata un pilastro fondamentale nella ricerca sull'intelligenza artificiale, consentendo agli agenti di comprendere, rappresentare e prevedere gli ambienti dinamici in cui operano. Mentre i lavori precedenti si sono concentrati principalmente su metodi generativi per dati bidimensionali come immagini e video, hanno trascurato il crescente corpus di ricerche che sfruttano rappresentazioni native 3D e 4D, come immagini RGB-D, griglie di occupazione e nuvole di punti LiDAR, per la modellazione di scene su larga scala. Allo stesso tempo, l'assenza di una definizione e tassonomia standardizzate per i "modelli del mondo" ha portato a affermazioni frammentate e talvolta incoerenti nella letteratura. Questa rassegna affronta queste lacune presentando la prima revisione completa dedicata esplicitamente alla modellazione e generazione di mondi 3D e 4D. Definiamo con precisione i concetti, introduciamo una tassonomia strutturata che abbraccia approcci basati su video (VideoGen), occupazione (OccGen) e LiDAR (LiDARGen), e riassumiamo sistematicamente i dataset e le metriche di valutazione adattate agli ambienti 3D/4D. Inoltre, discutiamo applicazioni pratiche, identifichiamo sfide aperte e evidenziamo direzioni di ricerca promettenti, con l'obiettivo di fornire un riferimento coerente e fondazionale per far progredire il campo. Un riepilogo sistematico della letteratura esistente è disponibile all'indirizzo https://github.com/worldbench/survey.
English
World modeling has become a cornerstone in AI research, enabling agents to understand, represent, and predict the dynamic environments they inhabit. While prior work largely emphasizes generative methods for 2D image and video data, they overlook the rapidly growing body of work that leverages native 3D and 4D representations such as RGB-D imagery, occupancy grids, and LiDAR point clouds for large-scale scene modeling. At the same time, the absence of a standardized definition and taxonomy for ``world models'' has led to fragmented and sometimes inconsistent claims in the literature. This survey addresses these gaps by presenting the first comprehensive review explicitly dedicated to 3D and 4D world modeling and generation. We establish precise definitions, introduce a structured taxonomy spanning video-based (VideoGen), occupancy-based (OccGen), and LiDAR-based (LiDARGen) approaches, and systematically summarize datasets and evaluation metrics tailored to 3D/4D settings. We further discuss practical applications, identify open challenges, and highlight promising research directions, aiming to provide a coherent and foundational reference for advancing the field. A systematic summary of existing literature is available at https://github.com/worldbench/survey
PDF564September 11, 2025