World Craft: Агентный фреймворк для создания визуализируемых миров с помощью текста
World Craft: Agentic Framework to Create Visualizable Worlds via Text
January 14, 2026
Авторы: Jianwen Sun, Yukang Feng, Kaining Ying, Chuanhao Li, Zizhen Li, Fanrui Zhang, Jiaxin Ai, Yifan Chang, Yu Dai, Yifei Huang, Kaipeng Zhang
cs.AI
Аннотация
Крупные языковые модели (LLМ) стимулируют развитие симуляции генеративных агентов (например, AI Town) для создания «динамического мира», что имеет огромную ценность как для развлечений, так и для исследований. Однако для неспециалистов, особенно не обладающих навыками программирования, самостоятельная настройка визуализируемой среды представляет значительную сложность. В данной статье мы представляем World Craft — агентный фреймворк для создания мира, который позволяет создавать исполняемый и визуализируемый AI Town на основе текстовых описаний пользователя. Он состоит из двух основных модулей: World Scaffold и World Guild. World Scaffold представляет собой структурированный и лаконичный стандарт для разработки интерактивных игровых сцен, служащий эффективным каркасом, позволяющим LLM настраивать исполняемую среду, подобную AI Town. World Guild — это мультиагентный фреймворк, который постепенно анализирует намерения пользователя из rough-описаний и синтезирует необходимые структурированные данные (например, layout окружения и ассеты) для World Scaffold. Кроме того, мы создали высококачественный датасет для коррекции ошибок методом обратной инженерии, чтобы улучшить пространственные знания, а также повысить стабильность и управляемость генерации layout, одновременно предоставляя многомерные метрики оценки для дальнейшего анализа. Многочисленные эксперименты демонстрируют, что наш фреймворк значительно превосходит существующие коммерческие код-агенты (Cursor и Antigravity) и LLM (Qwen3 и Gemini-3-Pro) в построении сцен и передаче нарративного замысла, предлагая масштабируемое решение для демократизации создания виртуальных сред.
English
Large Language Models (LLMs) motivate generative agent simulation (e.g., AI Town) to create a ``dynamic world'', holding immense value across entertainment and research. However, for non-experts, especially those without programming skills, it isn't easy to customize a visualizable environment by themselves. In this paper, we introduce World Craft, an agentic world creation framework to create an executable and visualizable AI Town via user textual descriptions. It consists of two main modules, World Scaffold and World Guild. World Scaffold is a structured and concise standardization to develop interactive game scenes, serving as an efficient scaffolding for LLMs to customize an executable AI Town-like environment. World Guild is a multi-agent framework to progressively analyze users' intents from rough descriptions, and synthesizes required structured contents (\eg environment layout and assets) for World Scaffold . Moreover, we construct a high-quality error-correction dataset via reverse engineering to enhance spatial knowledge and improve the stability and controllability of layout generation, while reporting multi-dimensional evaluation metrics for further analysis. Extensive experiments demonstrate that our framework significantly outperforms existing commercial code agents (Cursor and Antigravity) and LLMs (Qwen3 and Gemini-3-Pro). in scene construction and narrative intent conveyance, providing a scalable solution for the democratization of environment creation.