Modellizzazione Mondiale Agente: Fondamenti, Capacità, Leggi e Oltre

Abstract

Mentre i sistemi di IA passano dalla generazione di testi al raggiungimento di obiettivi attraverso interazioni prolungate, la capacità di modellare le dinamiche ambientali diventa un collo di bottiglia centrale. Gli agenti che manipolano oggetti, navigano software, coordinano con altri o progettano esperimenti richiedono modelli ambientali predittivi, eppure il termine "modello del mondo" assume significati diversi tra le comunità di ricerca. Introduciamo una tassonomia "livelli x leggi" organizzata lungo due assi. Il primo definisce tre livelli di capacità: L1 Predittore, che apprende operatori di transizione locale a un passo; L2 Simulatore, che li compone in rollout multi-passo condizionati alle azioni che rispettano le leggi del dominio; e L3 Evolutore, che rivede autonomamente il proprio modello quando le previsioni falliscono rispetto a nuove evidenze. Il secondo identifica quattro regimi di leggi governative: fisico, digitale, sociale e scientifico. Questi regimi determinano quali vincoli un modello del mondo deve soddisfare e dove è più probabile che fallisca. Utilizzando questo quadro, sintetizziamo oltre 400 lavori e riassumiamo più di 100 sistemi rappresentativi che spaziano dall'apprendimento per rinforzo basato su modelli, alla generazione video, agli agenti web e GUI, alla simulazione sociale multi-agente e alla scoperta scientifica guidata dall'IA. Analizziamo metodi, modalità di fallimento e pratiche di valutazione attraverso le coppie livello-regime, proponiamo principi di valutazione decision-centric e un pacchetto di valutazione minimo riproducibile, e delineiamo linee guida architetturali, problemi aperti e sfide di governance. La roadmap risultante collega comunità precedentemente isolate e traccia un percorso dalla predizione passiva del passo successivo verso modelli del mondo che possono simulare, e infine rimodellare, gli ambienti in cui operano gli agenti.

English

As AI systems move from generating text to accomplishing goals through sustained interaction, the ability to model environment dynamics becomes a central bottleneck. Agents that manipulate objects, navigate software, coordinate with others, or design experiments require predictive environment models, yet the term world model carries different meanings across research communities. We introduce a "levels x laws" taxonomy organized along two axes. The first defines three capability levels: L1 Predictor, which learns one-step local transition operators; L2 Simulator, which composes them into multi-step, action-conditioned rollouts that respect domain laws; and L3 Evolver, which autonomously revises its own model when predictions fail against new evidence. The second identifies four governing-law regimes: physical, digital, social, and scientific. These regimes determine what constraints a world model must satisfy and where it is most likely to fail. Using this framework, we synthesize over 400 works and summarize more than 100 representative systems spanning model-based reinforcement learning, video generation, web and GUI agents, multi-agent social simulation, and AI-driven scientific discovery. We analyze methods, failure modes, and evaluation practices across level-regime pairs, propose decision-centric evaluation principles and a minimal reproducible evaluation package, and outline architectural guidance, open problems, and governance challenges. The resulting roadmap connects previously isolated communities and charts a path from passive next-step prediction toward world models that can simulate, and ultimately reshape, the environments in which agents operate.

Modellizzazione Mondiale Agente: Fondamenti, Capacità, Leggi e Oltre

Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond

Abstract

Support