ChatPaper.aiChatPaper

Dalle Maschere ai Mondi: Una Guida Galattica per Autostoppisti ai Modelli del Mondo

From Masks to Worlds: A Hitchhiker's Guide to World Models

October 23, 2025
Autori: Jinbin Bai, Yu Lei, Hecong Wu, Yuchen Zhu, Shufan Li, Yi Xin, Xiangtai Li, Molei Tao, Aditya Grover, Ming-Hsuan Yang
cs.AI

Abstract

Questo non è un tipico survey sui modelli del mondo; è una guida per coloro che vogliono costruire mondi. Il nostro obiettivo non è catalogare ogni articolo che abbia mai menzionato un "modello del mondo". Piuttosto, seguiamo un percorso chiaro: dai primi modelli mascherati che unificavano l'apprendimento delle rappresentazioni tra le modalità, alle architetture unificate che condividono un unico paradigma, poi ai modelli generativi interattivi che chiudono il ciclo azione-percezione, e infine ai sistemi potenziati dalla memoria che sostengono mondi coerenti nel tempo. Evitiamo i rami solo marginalmente correlati per concentrarci sul nucleo: il cuore generativo, il ciclo interattivo e il sistema di memoria. Dimostriamo che questo è il percorso più promettente verso veri modelli del mondo.
English
This is not a typical survey of world models; it is a guide for those who want to build worlds. We do not aim to catalog every paper that has ever mentioned a ``world model". Instead, we follow one clear road: from early masked models that unified representation learning across modalities, to unified architectures that share a single paradigm, then to interactive generative models that close the action-perception loop, and finally to memory-augmented systems that sustain consistent worlds over time. We bypass loosely related branches to focus on the core: the generative heart, the interactive loop, and the memory system. We show that this is the most promising path towards true world models.
PDF62December 2, 2025