Mundo Craft: Marco Agéntico para Crear Mundos Visualizables mediante Texto
World Craft: Agentic Framework to Create Visualizable Worlds via Text
January 14, 2026
Autores: Jianwen Sun, Yukang Feng, Kaining Ying, Chuanhao Li, Zizhen Li, Fanrui Zhang, Jiaxin Ai, Yifan Chang, Yu Dai, Yifei Huang, Kaipeng Zhang
cs.AI
Resumen
Los Modelos de Lenguaje Grandes (LLMs) impulsan la simulación de agentes generativos (por ejemplo, AI Town) para crear un "mundo dinámico", lo que tiene un valor inmenso tanto en el entretenimiento como en la investigación. Sin embargo, para los no expertos, especialmente aquellos sin habilidades de programación, resulta difícil personalizar un entorno visualizable por sí mismos. En este artículo, presentamos World Craft, un marco de creación de mundos agentico para crear un AI Town ejecutable y visualizable mediante descripciones textuales del usuario. Consta de dos módulos principales: World Scaffold y World Guild. World Scaffold es una estandarización estructurada y concisa para desarrollar escenas de juego interactivas, que sirve como un andamiaje eficiente para que los LLMs personalicen un entorno ejecutable similar a AI Town. World Guild es un marco multiagente que analiza progresivamente las intenciones de los usuarios a partir de descripciones aproximadas y sintetiza los contenidos estructurados requeridos (por ejemplo, el diseño del entorno y los recursos) para World Scaffold. Además, construimos un conjunto de datos de corrección de errores de alta calidad mediante ingeniería inversa para mejorar el conocimiento espacial y aumentar la estabilidad y controlabilidad de la generación de diseños, al tiempo que reportamos métricas de evaluación multidimensionales para un análisis posterior. Experimentos exhaustivos demuestran que nuestro marco supera significativamente a los agentes de código comerciales existentes (Cursor y Antigravity) y a los LLMs (Qwen3 y Gemini-3-Pro) en la construcción de escenas y la transmisión de la intención narrativa, proporcionando una solución escalable para la democratización de la creación de entornos.
English
Large Language Models (LLMs) motivate generative agent simulation (e.g., AI Town) to create a ``dynamic world'', holding immense value across entertainment and research. However, for non-experts, especially those without programming skills, it isn't easy to customize a visualizable environment by themselves. In this paper, we introduce World Craft, an agentic world creation framework to create an executable and visualizable AI Town via user textual descriptions. It consists of two main modules, World Scaffold and World Guild. World Scaffold is a structured and concise standardization to develop interactive game scenes, serving as an efficient scaffolding for LLMs to customize an executable AI Town-like environment. World Guild is a multi-agent framework to progressively analyze users' intents from rough descriptions, and synthesizes required structured contents (\eg environment layout and assets) for World Scaffold . Moreover, we construct a high-quality error-correction dataset via reverse engineering to enhance spatial knowledge and improve the stability and controllability of layout generation, while reporting multi-dimensional evaluation metrics for further analysis. Extensive experiments demonstrate that our framework significantly outperforms existing commercial code agents (Cursor and Antigravity) and LLMs (Qwen3 and Gemini-3-Pro). in scene construction and narrative intent conveyance, providing a scalable solution for the democratization of environment creation.