Generación Visual en la Nueva Era: Una Evolución del Mapeo Atómico al Modelado de Mundos Agentes
Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling
April 30, 2026
Autores: Keming Wu, Zuhao Yang, Kaichen Zhang, Shizun Wang, Haowei Zhu, Sicong Leng, Zhongyu Yang, Qijie Wang, Sudong Wang, Ziting Wang, Zili Wang, Hui Zhang, Haonan Wang, Hang Zhou, Yifan Pu, Xingxuan Li, Fangneng Zhan, Bo Li, Lidong Bing, Yuxin Song, Ziwei Liu, Wenhu Chen, Jingdong Wang, Xinchao Wang, Xiaojuan Qi, Shijian Lu, Bin Wang
cs.AI
Resumen
Los modelos recientes de generación visual han logrado avances significativos en fotorrealismo, tipografía, seguimiento de instrucciones y edición interactiva, pero aún presentan dificultades en razonamiento espacial, estado persistente, coherencia a largo plazo y comprensión causal. Sostenemos que el campo debe avanzar más allá de la síntesis de apariencias hacia una generación visual inteligente: elementos visuales plausibles fundamentados en estructura, dinámicas, conocimiento de dominio y relaciones causales. Para enmarcar este cambio, presentamos una taxonomía de cinco niveles: Generación Atómica, Generación Condicional, Generación en Contexto, Generación Agéntica y Generación Basada en Modelos del Mundo, que progresa desde renderizadores pasivos hasta generadores interactivos, agénticos y conscientes del entorno. Analizamos impulsores técnicos clave, incluyendo emparejamiento de flujos, modelos unificados de comprensión y generación, representaciones visuales mejoradas, post-entrenamiento, modelado de recompensas, curación de datos, destilación de datos sintéticos y aceleración del muestreo. Además, demostramos que las evaluaciones actuales a menudo sobrestiman el progreso al enfatizar la calidad perceptual mientras pasan por alto fallos estructurales, temporales y causales. Al combinar la revisión de benchmarks, pruebas de estrés en entornos reales y estudios de caso con restricciones expertas, esta hoja de ruta ofrece una perspectiva centrada en capacidades para comprender, evaluar y avanzar la próxima generación de sistemas inteligentes de generación visual.
English
Recent visual generation models have made major progress in photorealism, typography, instruction following, and interactive editing, yet they still struggle with spatial reasoning, persistent state, long-horizon consistency, and causal understanding. We argue that the field should move beyond appearance synthesis toward intelligent visual generation: plausible visuals grounded in structure, dynamics, domain knowledge, and causal relations. To frame this shift, we introduce a five-level taxonomy: Atomic Generation, Conditional Generation, In-Context Generation, Agentic Generation, and World-Modeling Generation, progressing from passive renderers to interactive, agentic, world-aware generators. We analyze key technical drivers, including flow matching, unified understanding-and-generation models, improved visual representations, post-training, reward modeling, data curation, synthetic data distillation, and sampling acceleration. We further show that current evaluations often overestimate progress by emphasizing perceptual quality while missing structural, temporal, and causal failures. By combining benchmark review, in-the-wild stress tests, and expert-constrained case studies, this roadmap offers a capability-centered lens for understanding, evaluating, and advancing the next generation of intelligent visual generation systems.