World Craft: Agentisches Framework zur Erstellung visualisierbarer Welten mittels Text
World Craft: Agentic Framework to Create Visualizable Worlds via Text
January 14, 2026
papers.authors: Jianwen Sun, Yukang Feng, Kaining Ying, Chuanhao Li, Zizhen Li, Fanrui Zhang, Jiaxin Ai, Yifan Chang, Yu Dai, Yifei Huang, Kaipeng Zhang
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) motivieren die Simulation generativer Agenten (z.B. AI Town), um eine „dynamische Welt“ zu erschaffen, was einen immensen Wert für Unterhaltung und Forschung birgt. Für Nicht-Experten, insbesondere für Personen ohne Programmierkenntnisse, ist es jedoch schwierig, eine visualisierbare Umgebung selbst anzupassen. In diesem Artikel stellen wir World Craft vor, einen agentenbasierten Framework zur Welterstellung, der eine ausführbare und visualisierbare AI Town über textuelle Benutzerbeschreibungen erzeugt. Es besteht aus zwei Hauptmodulen: World Scaffold und World Guild. World Scaffold ist eine strukturierte und prägnante Standardisierung zur Entwicklung interaktiver Spielszenen, die als effizientes Gerüst für LLMs dient, um eine ausführbare, AI Town-ähnliche Umgebung anzupassen. World Guild ist ein Multi-Agenten-Framework, das schrittweise die Absichten der Nutzer aus groben Beschreibungen analysiert und die erforderlichen strukturierten Inhalte (z.B. Umgebungslayout und Assets) für World Scaffold synthetisiert. Darüber hinaus erstellen wir einen hochwertigen Fehlerkorrektur-Datensatz durch Reverse Engineering, um das räumliche Wissen zu erweitern und die Stabilität sowie Steuerbarkeit der Layouterzeugung zu verbessern, wobei wir mehrdimensionale Evaluationsmetriken zur weiteren Analyse berichten. Umfangreiche Experimente zeigen, dass unser Framework existierende kommerzielle Code-Agenten (Cursor und Antigravity) und LLMs (Qwen3 und Gemini-3-Pro) bei der Szenenkonstruktion und der Vermittlung narrativer Absichten signifikant übertrifft und somit eine skalierbare Lösung für die Demokratisierung der Umgebungserstellung bietet.
English
Large Language Models (LLMs) motivate generative agent simulation (e.g., AI Town) to create a ``dynamic world'', holding immense value across entertainment and research. However, for non-experts, especially those without programming skills, it isn't easy to customize a visualizable environment by themselves. In this paper, we introduce World Craft, an agentic world creation framework to create an executable and visualizable AI Town via user textual descriptions. It consists of two main modules, World Scaffold and World Guild. World Scaffold is a structured and concise standardization to develop interactive game scenes, serving as an efficient scaffolding for LLMs to customize an executable AI Town-like environment. World Guild is a multi-agent framework to progressively analyze users' intents from rough descriptions, and synthesizes required structured contents (\eg environment layout and assets) for World Scaffold . Moreover, we construct a high-quality error-correction dataset via reverse engineering to enhance spatial knowledge and improve the stability and controllability of layout generation, while reporting multi-dimensional evaluation metrics for further analysis. Extensive experiments demonstrate that our framework significantly outperforms existing commercial code agents (Cursor and Antigravity) and LLMs (Qwen3 and Gemini-3-Pro). in scene construction and narrative intent conveyance, providing a scalable solution for the democratization of environment creation.