ChatPaper.aiChatPaper

ワールドクラフト:テキストによる可視化可能な世界を創造するエージェントフレームワーク

World Craft: Agentic Framework to Create Visualizable Worlds via Text

January 14, 2026
著者: Jianwen Sun, Yukang Feng, Kaining Ying, Chuanhao Li, Zizhen Li, Fanrui Zhang, Jiaxin Ai, Yifan Chang, Yu Dai, Yifei Huang, Kaipeng Zhang
cs.AI

要旨

大規模言語モデル(LLM)は、生成エージェントシミュレーション(例:AI Town)を促進し、「動的な世界」を創出することで、エンターテインメントから研究に至るまで極めて大きな価値を有しています。しかし、非専門家、特にプログラミングスキルを持たないユーザーにとって、視覚化可能な環境を独自にカスタマイズすることは容易ではありません。本論文では、World Craftを提案します。これは、ユーザーのテキスト記述から実行可能かつ視覚化可能なAI Townを構築するためのエージェント型世界創造フレームワークです。本フレームワークは、World ScaffoldとWorld Guildの2つの主要モジュールで構成されます。World Scaffoldは、インタラクティブなゲームシーンを開発するための構造化され簡潔な標準化手法であり、LLMが実行可能なAI Town風環境をカスタマイズするための効率的な足場として機能します。World Guildは、大まかな記述からユーザーの意図を段階的に分析し、World Scaffoldに必要な構造化コンテンツ(環境レイアウトやアセットなど)を合成するマルチエージェントフレームワークです。さらに、リバースエンジニアリングを通じて高品質な誤り訂正データセットを構築し、空間知識の強化とレイアウト生成の安定性・制御性の向上を図るとともに、詳細な分析のための多次元評価指標を報告します。大規模な実験により、本フレームワークが既存の商用コードエージェント(CursorおよびAntigravity)やLLM(Qwen3およびGemini-3-Pro)を、シーン構築と物語的意図の伝達において大幅に上回ることを実証し、環境創造の民主化に向けたスケーラブルなソリューションを提供します。
English
Large Language Models (LLMs) motivate generative agent simulation (e.g., AI Town) to create a ``dynamic world'', holding immense value across entertainment and research. However, for non-experts, especially those without programming skills, it isn't easy to customize a visualizable environment by themselves. In this paper, we introduce World Craft, an agentic world creation framework to create an executable and visualizable AI Town via user textual descriptions. It consists of two main modules, World Scaffold and World Guild. World Scaffold is a structured and concise standardization to develop interactive game scenes, serving as an efficient scaffolding for LLMs to customize an executable AI Town-like environment. World Guild is a multi-agent framework to progressively analyze users' intents from rough descriptions, and synthesizes required structured contents (\eg environment layout and assets) for World Scaffold . Moreover, we construct a high-quality error-correction dataset via reverse engineering to enhance spatial knowledge and improve the stability and controllability of layout generation, while reporting multi-dimensional evaluation metrics for further analysis. Extensive experiments demonstrate that our framework significantly outperforms existing commercial code agents (Cursor and Antigravity) and LLMs (Qwen3 and Gemini-3-Pro). in scene construction and narrative intent conveyance, providing a scalable solution for the democratization of environment creation.
PDF152January 29, 2026