Muses: Проектирование, сочинение и генерация несуществующих фантастических 3D-существ без обучения
Muses: Designing, Composing, Generating Nonexistent Fantasy 3D Creatures without Training
January 6, 2026
Авторы: Hexiao Lu, Xiaokun Sun, Zeyu Cai, Hao Guo, Ying Tai, Jian Yang, Zhenyu Zhang
cs.AI
Аннотация
Мы представляем Muses — первый метод генерации фантастических 3D-существ в прямом проходе, не требующий обучения. Предыдущие подходы, основанные на оптимизации с учетом частей, ручной сборке или генерации 2D-изображений, часто создают нереалистичные или несогласованные 3D-объекты из-за сложностей манипуляции на уровне деталей и ограниченных возможностей генерации вне домена. В отличие от них, Muses использует 3D-скелет — фундаментальное представление биологических форм — для явного и рационального комбинирования разнородных элементов. Данная скелетная основа формализует создание 3D-контента как структурированный конвейер проектирования, композиции и генерации. Muses начинает с построения творчески составленного 3D-скелета с согласованной компоновкой и масштабом посредством графо-ограниченного вывода. Этот скелет затем направляет воксельный процесс сборки в структурированном латентном пространстве, интегрируя области различных объектов. Наконец, применяется моделирование внешнего вида под управлением изображений при скелетных ограничениях для генерации стилистически согласованной и гармоничной текстуры собранной формы. Многочисленные эксперименты подтверждают передовые показатели Muses по визуальной достоверности и соответствию текстовым описаниям, а также его потенциал в гибком редактировании 3D-объектов. Страница проекта: https://luhexiao.github.io/Muses.github.io/.
English
We present Muses, the first training-free method for fantastic 3D creature generation in a feed-forward paradigm. Previous methods, which rely on part-aware optimization, manual assembly, or 2D image generation, often produce unrealistic or incoherent 3D assets due to the challenges of intricate part-level manipulation and limited out-of-domain generation. In contrast, Muses leverages the 3D skeleton, a fundamental representation of biological forms, to explicitly and rationally compose diverse elements. This skeletal foundation formalizes 3D content creation as a structure-aware pipeline of design, composition, and generation. Muses begins by constructing a creatively composed 3D skeleton with coherent layout and scale through graph-constrained reasoning. This skeleton then guides a voxel-based assembly process within a structured latent space, integrating regions from different objects. Finally, image-guided appearance modeling under skeletal conditions is applied to generate a style-consistent and harmonious texture for the assembled shape. Extensive experiments establish Muses' state-of-the-art performance in terms of visual fidelity and alignment with textual descriptions, and potential on flexible 3D object editing. Project page: https://luhexiao.github.io/Muses.github.io/.