ChatPaper.aiChatPaper

Monde Artisanal : Cadre Agentique pour Créer des Mondes Visualisables par Texte

World Craft: Agentic Framework to Create Visualizable Worlds via Text

January 14, 2026
papers.authors: Jianwen Sun, Yukang Feng, Kaining Ying, Chuanhao Li, Zizhen Li, Fanrui Zhang, Jiaxin Ai, Yifan Chang, Yu Dai, Yifei Huang, Kaipeng Zhang
cs.AI

papers.abstract

Les modèles de langage de grande taille (LLM) motivent la simulation d'agents génératifs (par exemple, AI Town) pour créer un « monde dynamique », présentant une valeur immense dans les domaines du divertissement et de la recherche. Cependant, pour les non-experts, en particulier ceux ne possédant pas de compétences en programmation, il est difficile de personnaliser eux-mêmes un environnement visualisable. Dans cet article, nous présentons World Craft, un framework agentique de création de mondes permettant de générer une AI Town exécutable et visualisable à partir de descriptions textuelles utilisateur. Il se compose de deux modules principaux : World Scaffold et World Guild. World Scaffold est une standardisation structurée et concise pour développer des scènes de jeu interactives, servant d'échafaudage efficace permettant aux LLM de personnaliser un environnement exécutable de type AI Town. World Guild est un framework multi-agents qui analyse progressivement les intentions des utilisateurs à partir de descriptions approximatives et synthétise les contenus structurés requis (par exemple, la disposition de l'environnement et les ressources) pour World Scaffold. De plus, nous construisons un jeu de données de correction d'erreurs de haute qualité par ingénierie inverse pour enrichir les connaissances spatiales et améliorer la stabilité et la contrôlabilité de la génération des dispositions, tout en rapportant des métriques d'évaluation multidimensionnelles pour des analyses ultérieures. Des expériences approfondies démontrent que notre framework surpasse significativement les agents de code commerciaux existants (Cursor et Antigravity) et les LLM (Qwen3 et Gemini-3-Pro) dans la construction de scènes et la transmission de l'intention narrative, offrant une solution évolutive pour la démocratisation de la création d'environnements.
English
Large Language Models (LLMs) motivate generative agent simulation (e.g., AI Town) to create a ``dynamic world'', holding immense value across entertainment and research. However, for non-experts, especially those without programming skills, it isn't easy to customize a visualizable environment by themselves. In this paper, we introduce World Craft, an agentic world creation framework to create an executable and visualizable AI Town via user textual descriptions. It consists of two main modules, World Scaffold and World Guild. World Scaffold is a structured and concise standardization to develop interactive game scenes, serving as an efficient scaffolding for LLMs to customize an executable AI Town-like environment. World Guild is a multi-agent framework to progressively analyze users' intents from rough descriptions, and synthesizes required structured contents (\eg environment layout and assets) for World Scaffold . Moreover, we construct a high-quality error-correction dataset via reverse engineering to enhance spatial knowledge and improve the stability and controllability of layout generation, while reporting multi-dimensional evaluation metrics for further analysis. Extensive experiments demonstrate that our framework significantly outperforms existing commercial code agents (Cursor and Antigravity) and LLMs (Qwen3 and Gemini-3-Pro). in scene construction and narrative intent conveyance, providing a scalable solution for the democratization of environment creation.
PDF152January 29, 2026