Musas: Diseño, Composición y Generación de Criaturas Fantásticas 3D Inexistentes sin Entrenamiento
Muses: Designing, Composing, Generating Nonexistent Fantasy 3D Creatures without Training
January 6, 2026
Autores: Hexiao Lu, Xiaokun Sun, Zeyu Cai, Hao Guo, Ying Tai, Jian Yang, Zhenyu Zhang
cs.AI
Resumen
Presentamos Muses, el primer método libre de entrenamiento para la generación de criaturas 3D fantásticas en un paradigma de avance directo. Los métodos anteriores, que dependen de optimización con conciencia de partes, ensamblaje manual o generación de imágenes 2D, a menudo producen activos 3D poco realistas o incoherentes debido a los desafíos de la intrincada manipulación a nivel de partes y la limitada generación fuera de dominio. En contraste, Muses aprovecha el esqueleto 3D, una representación fundamental de las formas biológicas, para componer explícita y racionalmente diversos elementos. Esta base esquelética formaliza la creación de contenido 3D como una canalización de diseño, composición y generación con conciencia estructural. Muses comienza construyendo un esqueleto 3D creativamente compuesto con diseño y escala coherentes mediante razonamiento con restricciones gráficas. Este esqueleto luego guía un proceso de ensamblaje basado en vóxeles dentro de un espacio latente estructurado, integrando regiones de diferentes objetos. Finalmente, se aplica un modelado de apariencia guiado por imágenes bajo condiciones esqueléticas para generar una textura armónica y consistente en estilo para la forma ensamblada. Experimentos exhaustivos establecen el rendimiento de vanguardia de Muses en términos de fidelidad visual y alineación con descripciones textuales, y su potencial para la edición flexible de objetos 3D. Página del proyecto: https://luhexiao.github.io/Muses.github.io/.
English
We present Muses, the first training-free method for fantastic 3D creature generation in a feed-forward paradigm. Previous methods, which rely on part-aware optimization, manual assembly, or 2D image generation, often produce unrealistic or incoherent 3D assets due to the challenges of intricate part-level manipulation and limited out-of-domain generation. In contrast, Muses leverages the 3D skeleton, a fundamental representation of biological forms, to explicitly and rationally compose diverse elements. This skeletal foundation formalizes 3D content creation as a structure-aware pipeline of design, composition, and generation. Muses begins by constructing a creatively composed 3D skeleton with coherent layout and scale through graph-constrained reasoning. This skeleton then guides a voxel-based assembly process within a structured latent space, integrating regions from different objects. Finally, image-guided appearance modeling under skeletal conditions is applied to generate a style-consistent and harmonious texture for the assembled shape. Extensive experiments establish Muses' state-of-the-art performance in terms of visual fidelity and alignment with textual descriptions, and potential on flexible 3D object editing. Project page: https://luhexiao.github.io/Muses.github.io/.