World Craft: Framework Agente per Creare Mondi Visualizzabili tramite Testo
World Craft: Agentic Framework to Create Visualizable Worlds via Text
January 14, 2026
Autori: Jianwen Sun, Yukang Feng, Kaining Ying, Chuanhao Li, Zizhen Li, Fanrui Zhang, Jiaxin Ai, Yifan Chang, Yu Dai, Yifei Huang, Kaipeng Zhang
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) motivano la simulazione di agenti generativi (ad esempio, AI Town) per creare un "mondo dinamico", rivestendo un immenso valore in ambito sia ludico che di ricerca. Tuttavia, per i non esperti, in particolare per chi non possiede competenze di programmazione, è difficile personalizzare autonomamente un ambiente visualizzabile. In questo articolo presentiamo World Craft, un framework per la creazione di mondi agentivi che permette di generare una AI Town eseguibile e visualizzabile tramite descrizioni testuali dell'utente. Esso si compone di due moduli principali: World Scaffold e World Guild. World Scaffold è una standardizzazione strutturata e concisa per sviluppare scene di gioco interattive, fungendo da impalcatura efficiente per gli LLM per personalizzare un ambiente eseguibile simile ad AI Town. World Guild è un framework multi-agente che analizza progressivamente le intenzioni dell'utente partendo da descrizioni approssimative e sintetizza i contenuti strutturati richiesti (ad esempio, layout dell'ambiente e asset) per World Scaffold. Inoltre, abbiamo costruito un dataset di correzione errori di alta qualità tramite reverse engineering per migliorare la conoscenza spaziale e aumentare la stabilità e la controllabilità della generazione del layout, riportando al contempo metriche di valutazione multidimensionali per analisi future. Esperimenti estensivi dimostrano che il nostro framework supera significativamente gli agenti di codice commerciali esistenti (Cursor e Antigravity) e gli LLM (Qwen3 e Gemini-3-Pro) nella costruzione di scene e nella trasmissione dell'intento narrativo, fornendo una soluzione scalabile per la democratizzazione della creazione di ambienti.
English
Large Language Models (LLMs) motivate generative agent simulation (e.g., AI Town) to create a ``dynamic world'', holding immense value across entertainment and research. However, for non-experts, especially those without programming skills, it isn't easy to customize a visualizable environment by themselves. In this paper, we introduce World Craft, an agentic world creation framework to create an executable and visualizable AI Town via user textual descriptions. It consists of two main modules, World Scaffold and World Guild. World Scaffold is a structured and concise standardization to develop interactive game scenes, serving as an efficient scaffolding for LLMs to customize an executable AI Town-like environment. World Guild is a multi-agent framework to progressively analyze users' intents from rough descriptions, and synthesizes required structured contents (\eg environment layout and assets) for World Scaffold . Moreover, we construct a high-quality error-correction dataset via reverse engineering to enhance spatial knowledge and improve the stability and controllability of layout generation, while reporting multi-dimensional evaluation metrics for further analysis. Extensive experiments demonstrate that our framework significantly outperforms existing commercial code agents (Cursor and Antigravity) and LLMs (Qwen3 and Gemini-3-Pro). in scene construction and narrative intent conveyance, providing a scalable solution for the democratization of environment creation.