Modelado Mundial Agéntico: Fundamentos, Capacidades, Leyes y Más Allá
Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond
April 24, 2026
Autores: Meng Chu, Xuan Billy Zhang, Kevin Qinghong Lin, Lingdong Kong, Jize Zhang, Teng Tu, Weijian Ma, Ziqi Huang, Senqiao Yang, Wei Huang, Yeying Jin, Zhefan Rao, Jinhui Ye, Xinyu Lin, Xichen Zhang, Qisheng Hu, Shuai Yang, Leyang Shen, Wei Chow, Yifei Dong, Fengyi Wu, Quanyu Long, Bin Xia, Shaozuo Yu, Mingkang Zhu, Wenhu Zhang, Jiehui Huang, Haokun Gui, Haoxuan Che, Long Chen, Qifeng Chen, Wenxuan Zhang, Wenya Wang, Xiaojuan Qi, Yang Deng, Yanwei Li, Mike Zheng Shou, Zhi-Qi Cheng, See-Kiong Ng, Ziwei Liu, Philip Torr, Jiaya Jia
cs.AI
Resumen
A medida que los sistemas de IA evolucionan de generar texto a lograr objetivos mediante interacción sostenida, la capacidad de modelar la dinámica del entorno se convierte en un cuello de botella central. Los agentes que manipulan objetos, navegan software, se coordinan con otros o diseñan experimentos requieren modelos predictivos del entorno, aunque el término "modelo del mundo" tiene significados distintos entre comunidades de investigación. Introducimos una taxonomía de "niveles x leyes" organizada en dos ejes. El primero define tres niveles de capacidad: Predictor L1, que aprende operadores de transición local de un paso; Simulador L2, que los compone en trayectorias multi-paso condicionadas por acciones que respetan las leyes del dominio; y Evolucionador L3, que revisa autónomamente su modelo cuando las predicciones fallan frente a nueva evidencia. El segundo identifica cuatro regímenes de leyes gobernantes: físico, digital, social y científico. Estos regímenes determinan qué restricciones debe satisfacer un modelo del mundo y dónde es más probable que falle. Usando este marco, sintetizamos más de 400 trabajos y resumimos más de 100 sistemas representativos que abarcan aprendizaje por refuerzo basado en modelos, generación de video, agentes web y de GUI, simulación social multi-agente y descubrimiento científico dirigido por IA. Analizamos métodos, modos de fallo y prácticas de evaluación por pares nivel-régimen, proponemos principios de evaluación centrados en decisiones y un paquete mínimo de evaluación reproducible, y esbozamos orientaciones arquitectónicas, problemas abiertos y desafíos de gobernanza. El plan resultante conecta comunidades previamente aisladas y traza una ruta desde la predicción pasiva del siguiente paso hacia modelos del mundo que puedan simular, y finalmente remodelar, los entornos en que operan los agentes.
English
As AI systems move from generating text to accomplishing goals through sustained interaction, the ability to model environment dynamics becomes a central bottleneck. Agents that manipulate objects, navigate software, coordinate with others, or design experiments require predictive environment models, yet the term world model carries different meanings across research communities. We introduce a "levels x laws" taxonomy organized along two axes. The first defines three capability levels: L1 Predictor, which learns one-step local transition operators; L2 Simulator, which composes them into multi-step, action-conditioned rollouts that respect domain laws; and L3 Evolver, which autonomously revises its own model when predictions fail against new evidence. The second identifies four governing-law regimes: physical, digital, social, and scientific. These regimes determine what constraints a world model must satisfy and where it is most likely to fail. Using this framework, we synthesize over 400 works and summarize more than 100 representative systems spanning model-based reinforcement learning, video generation, web and GUI agents, multi-agent social simulation, and AI-driven scientific discovery. We analyze methods, failure modes, and evaluation practices across level-regime pairs, propose decision-centric evaluation principles and a minimal reproducible evaluation package, and outline architectural guidance, open problems, and governance challenges. The resulting roadmap connects previously isolated communities and charts a path from passive next-step prediction toward world models that can simulate, and ultimately reshape, the environments in which agents operate.