ChatPaper.aiChatPaper

World Craft: Framework Agente para Criar Mundos Visualizáveis via Texto

World Craft: Agentic Framework to Create Visualizable Worlds via Text

January 14, 2026
Autores: Jianwen Sun, Yukang Feng, Kaining Ying, Chuanhao Li, Zizhen Li, Fanrui Zhang, Jiaxin Ai, Yifan Chang, Yu Dai, Yifei Huang, Kaipeng Zhang
cs.AI

Resumo

Os Modelos de Linguagem de Grande Porte (LLMs) motivam a simulação de agentes generativos (por exemplo, AI Town) para criar um "mundo dinâmico", detendo imenso valor tanto no entretenimento quanto na pesquisa. No entanto, para não especialistas, especialmente aqueles sem habilidades de programação, é difícil personalizar um ambiente visualizável por conta própria. Neste artigo, apresentamos o World Craft, uma estrutura de criação de mundos agentiva para criar uma AI Town executável e visualizável por meio de descrições textuais do usuário. Ela consiste em dois módulos principais: World Scaffold e World Guild. O World Scaffold é uma padronização estruturada e concisa para desenvolver cenas de jogo interativas, servindo como um andaime eficiente para que os LLMs personalizem um ambiente executável semelhante ao AI Town. O World Guild é uma estrutura multiagente para analisar progressivamente as intenções dos usuários a partir de descrições aproximadas e sintetizar os conteúdos estruturados necessários (por exemplo, layout do ambiente e recursos) para o World Scaffold. Além disso, construímos um conjunto de dados de correção de erros de alta qualidade por meio de engenharia reversa para aprimorar o conhecimento espacial e melhorar a estabilidade e a controlabilidade da geração de layout, ao mesmo tempo que relatamos métricas de avaliação multidimensionais para análises posteriores. Experimentos extensivos demonstram que nossa estrutura supera significativamente os agentes de código comerciais existentes (Cursor e Antigravity) e LLMs (Qwen3 e Gemini-3-Pro) na construção de cenas e na transmissão da intenção narrativa, fornecendo uma solução escalável para a democratização da criação de ambientes.
English
Large Language Models (LLMs) motivate generative agent simulation (e.g., AI Town) to create a ``dynamic world'', holding immense value across entertainment and research. However, for non-experts, especially those without programming skills, it isn't easy to customize a visualizable environment by themselves. In this paper, we introduce World Craft, an agentic world creation framework to create an executable and visualizable AI Town via user textual descriptions. It consists of two main modules, World Scaffold and World Guild. World Scaffold is a structured and concise standardization to develop interactive game scenes, serving as an efficient scaffolding for LLMs to customize an executable AI Town-like environment. World Guild is a multi-agent framework to progressively analyze users' intents from rough descriptions, and synthesizes required structured contents (\eg environment layout and assets) for World Scaffold . Moreover, we construct a high-quality error-correction dataset via reverse engineering to enhance spatial knowledge and improve the stability and controllability of layout generation, while reporting multi-dimensional evaluation metrics for further analysis. Extensive experiments demonstrate that our framework significantly outperforms existing commercial code agents (Cursor and Antigravity) and LLMs (Qwen3 and Gemini-3-Pro). in scene construction and narrative intent conveyance, providing a scalable solution for the democratization of environment creation.
PDF203February 8, 2026