Simulare il Mondo Visivo con l'Intelligenza Artificiale: Una Roadmap

Abstract

Il panorama della generazione video sta evolvendo, spostando l'attenzione dalla creazione di clip visivamente accattivanti alla costruzione di ambienti virtuali che supportino l'interazione e mantengano la plausibilità fisica. Questi sviluppi indicano l'emergere di modelli fondazionali video che funzionano non solo come generatori visivi, ma anche come modelli mondiali impliciti, in grado di simulare le dinamiche fisiche, le interazioni agente-ambiente e la pianificazione di compiti che governano mondi reali o immaginati. Questa rassegna fornisce una panoramica sistematica di questa evoluzione, concettualizzando i moderni modelli fondazionali video come la combinazione di due componenti fondamentali: un modello mondiale implicito e un renderizzatore video. Il modello mondiale codifica conoscenza strutturata sul mondo, incluse le leggi fisiche, le dinamiche di interazione e il comportamento degli agenti. Funge da motore di simulazione latente che abilita ragionamenti visivi coerenti, consistenza temporale a lungo termine e pianificazione guidata da obiettivi. Il renderizzatore video trasforma questa simulazione latente in osservazioni visive realistiche, producendo efficacemente video come "finestre" sul mondo simulato. Tracciamo la progressione della generazione video attraverso quattro generazioni, in cui le capacità fondamentali avanzano gradualmente, culminando infine in un modello mondiale, costruito su un modello di generazione video, che incorpora una plausibilità fisica intrinseca, un'interazione multimodale in tempo reale e capacità di pianificazione che abbracciano scale spaziotemporali multiple. Per ogni generazione, ne definiamo le caratteristiche principali, evidenziamo i lavori rappresentativi ed esaminiamo i loro ambiti applicativi come la robotica, la guida autonoma e i giochi interattivi. Infine, discutiamo le sfide aperte e i principi di progettazione per i modelli mondiali di prossima generazione, incluso il ruolo dell'intelligenza degli agenti nel modellare e valutare questi sistemi. Un elenco aggiornato dei lavori correlati è mantenuto a questo link.

English

The landscape of video generation is shifting, from a focus on generating visually appealing clips to building virtual environments that support interaction and maintain physical plausibility. These developments point toward the emergence of video foundation models that function not only as visual generators but also as implicit world models, models that simulate the physical dynamics, agent-environment interactions, and task planning that govern real or imagined worlds. This survey provides a systematic overview of this evolution, conceptualizing modern video foundation models as the combination of two core components: an implicit world model and a video renderer. The world model encodes structured knowledge about the world, including physical laws, interaction dynamics, and agent behavior. It serves as a latent simulation engine that enables coherent visual reasoning, long-term temporal consistency, and goal-driven planning. The video renderer transforms this latent simulation into realistic visual observations, effectively producing videos as a "window" into the simulated world. We trace the progression of video generation through four generations, in which the core capabilities advance step by step, ultimately culminating in a world model, built upon a video generation model, that embodies intrinsic physical plausibility, real-time multimodal interaction, and planning capabilities spanning multiple spatiotemporal scales. For each generation, we define its core characteristics, highlight representative works, and examine their application domains such as robotics, autonomous driving, and interactive gaming. Finally, we discuss open challenges and design principles for next-generation world models, including the role of agent intelligence in shaping and evaluating these systems. An up-to-date list of related works is maintained at this link.

Simulare il Mondo Visivo con l'Intelligenza Artificiale: Una Roadmap

Simulating the Visual World with Artificial Intelligence: A Roadmap

Abstract

Support