월드 크래프트: 텍스트를 통한 시각화 가능한 세계 창조를 위한 에이전트 기반 프레임워크
World Craft: Agentic Framework to Create Visualizable Worlds via Text
January 14, 2026
저자: Jianwen Sun, Yukang Feng, Kaining Ying, Chuanhao Li, Zizhen Li, Fanrui Zhang, Jiaxin Ai, Yifan Chang, Yu Dai, Yifei Huang, Kaipeng Zhang
cs.AI
초록
대규모 언어 모델(LLM)의 발전은 생성형 에이전트 시뮬레이션(예: AI Town)을 통해 '동적인 세계'를 구축하게 하여 엔터테인먼트와 연구 분야에 막대한 가치를 지닙니다. 그러나 비전문가, 특히 프로그래밍 기술이 없는 사용자에게는 시각화 가능한 환경을 직접 맞춤 제작하는 것이 쉽지 않습니다. 본 논문에서는 사용자의 텍스트 설명을 통해 실행 가능하고 시각화된 AI Town을 생성하는 에이전트 기반 세계 창조 프레임워크인 World Craft를 소개합니다. 이는 World Scaffold와 World Guild 두 가지 주요 모듈로 구성됩니다. World Scaffold는 상호작용 가능한 게임 장면을 개발하기 위한 구조적이고 간결한 표준화 체계로, LLM이 실행 가능한 AI Town 스타일 환경을 맞춤 제작할 수 있는 효율적인 발판을 제공합니다. World Guild는 사용자의 대략적인 설명으로부터 의도를 점진적으로 분석하고, World Scaffold에 필요한 구조화된 내용(예: 환경 레이아웃 및 에셋)을 합성하는 다중 에이전트 프레임워크입니다. 더 나아가, 레이아웃 생성의 안정성과 제어 가능성을 높이기 위해 역공학을 통해 고품질 오류 수정 데이터셋을 구축하고, 추가 분석을 위한 다차원 평가 지표를 제시합니다. 광범위한 실험을 통해 본 프레임워크가 장면 구성과 서술 의도 전달 측면에서 기존 상용 코드 에이전트(Cursor 및 Antigravity) 및 LLM(Qwen3 및 Gemini-3-Pro)을 크게 능가함을 입증하여, 환경 창조의 민주화를 위한 확장 가능한 솔루션을 제공합니다.
English
Large Language Models (LLMs) motivate generative agent simulation (e.g., AI Town) to create a ``dynamic world'', holding immense value across entertainment and research. However, for non-experts, especially those without programming skills, it isn't easy to customize a visualizable environment by themselves. In this paper, we introduce World Craft, an agentic world creation framework to create an executable and visualizable AI Town via user textual descriptions. It consists of two main modules, World Scaffold and World Guild. World Scaffold is a structured and concise standardization to develop interactive game scenes, serving as an efficient scaffolding for LLMs to customize an executable AI Town-like environment. World Guild is a multi-agent framework to progressively analyze users' intents from rough descriptions, and synthesizes required structured contents (\eg environment layout and assets) for World Scaffold . Moreover, we construct a high-quality error-correction dataset via reverse engineering to enhance spatial knowledge and improve the stability and controllability of layout generation, while reporting multi-dimensional evaluation metrics for further analysis. Extensive experiments demonstrate that our framework significantly outperforms existing commercial code agents (Cursor and Antigravity) and LLMs (Qwen3 and Gemini-3-Pro). in scene construction and narrative intent conveyance, providing a scalable solution for the democratization of environment creation.