World Craft: Agentisch Framework voor het Creëren van Visualiseerbare Werelden via Tekst
World Craft: Agentic Framework to Create Visualizable Worlds via Text
January 14, 2026
Auteurs: Jianwen Sun, Yukang Feng, Kaining Ying, Chuanhao Li, Zizhen Li, Fanrui Zhang, Jiaxin Ai, Yifan Chang, Yu Dai, Yifei Huang, Kaipeng Zhang
cs.AI
Samenvatting
Grote Taalmodellen (LLM's) vormen de drijvende kracht achter de simulatie van generatieve agenten (zoals AI Town) om een "dynamische wereld" te creëren, wat van onschatbare waarde is voor zowel entertainment als onderzoek. Voor niet-experts, met name voor hen zonder programmeervaardigheden, is het echter moeilijk om zelf een visueel voorstelbare omgeving aan te passen. In dit artikel introduceren we World Craft, een agent-gebaseerd raamwerk voor wereldcreatie dat het mogelijk maakt om een uitvoerbare en visueel voorstelbare AI Town te creëren via tekstuele beschrijvingen van de gebruiker. Het bestaat uit twee hoofdmodules: World Scaffold en World Guild. World Scaffold is een gestandaardiseerde, gestructureerde en beknopte methode om interactieve game-scènes te ontwikkelen, en dient als een efficiënte steiger voor LLM's om een uitvoerbare, AI Town-achtige omgeving aan te passen. World Guild is een multi-agent raamwerk dat progressief de intenties van gebruikers uit ruwe beschrijvingen analyseert en de benodigde gestructureerde inhoud (zoals omgevingslay-out en assets) synthetiseert voor World Scaffold. Bovendien construeren we een hoogwaardige dataset voor foutcorrectie via reverse engineering om ruimtelijke kennis te verbeteren en de stabiliteit en beheersbaarheid van lay-outgeneratie te vergroten, waarbij we multidimensionale evaluatiemetrics rapporteren voor verdere analyse. Uitgebreide experimenten tonen aan dat ons raamwerk aanzienlijk beter presteert dan bestaande commerciële code-agenten (Cursor en Antigravity) en LLM's (Qwen3 en Gemini-3-Pro) op het gebied van scenarioconstructie en de overdracht van narratieve intentie, en biedt zo een schaalbare oplossing voor de democratisering van omgevingscreatie.
English
Large Language Models (LLMs) motivate generative agent simulation (e.g., AI Town) to create a ``dynamic world'', holding immense value across entertainment and research. However, for non-experts, especially those without programming skills, it isn't easy to customize a visualizable environment by themselves. In this paper, we introduce World Craft, an agentic world creation framework to create an executable and visualizable AI Town via user textual descriptions. It consists of two main modules, World Scaffold and World Guild. World Scaffold is a structured and concise standardization to develop interactive game scenes, serving as an efficient scaffolding for LLMs to customize an executable AI Town-like environment. World Guild is a multi-agent framework to progressively analyze users' intents from rough descriptions, and synthesizes required structured contents (\eg environment layout and assets) for World Scaffold . Moreover, we construct a high-quality error-correction dataset via reverse engineering to enhance spatial knowledge and improve the stability and controllability of layout generation, while reporting multi-dimensional evaluation metrics for further analysis. Extensive experiments demonstrate that our framework significantly outperforms existing commercial code agents (Cursor and Antigravity) and LLMs (Qwen3 and Gemini-3-Pro). in scene construction and narrative intent conveyance, providing a scalable solution for the democratization of environment creation.