Muses: Projetando, Compondo e Gerando Criaturas Fantásticas 3D Inexistentes sem Treinamento

Resumo

Apresentamos o Muses, o primeiro método livre de treinamento para geração fantástica de criaturas 3D em um paradigma *feed-forward*. Métodos anteriores, que dependem de otimização com consciência de partes, montagem manual ou geração de imagens 2D, frequentemente produzem ativos 3D irreais ou incoerentes devido aos desafios da manipulação intrincada em nível de partes e da geração limitada fora do domínio. Em contraste, o Muses aproveita o esqueleto 3D, uma representação fundamental das formas biológicas, para compor explicitamente e de forma racional elementos diversos. Esta base esquelética formaliza a criação de conteúdo 3D como um *pipeline* consciente da estrutura de design, composição e geração. O Muses começa construindo um esqueleto 3D criativamente composto com layout e escala coerentes por meio de raciocínio com restrições de grafo. Este esqueleto então guia um processo de montagem baseado em voxel dentro de um espaço latente estruturado, integrando regiões de objetos diferentes. Por fim, a modelagem de aparência guiada por imagem sob condições esqueléticas é aplicada para gerar uma textura harmoniosa e consistente em estilo para a forma montada. Experimentos extensivos estabelecem o desempenho state-of-the-art do Muses em termos de fidelidade visual e alinhamento com descrições textuais, e seu potencial para edição flexível de objetos 3D. Página do projeto: https://luhexiao.github.io/Muses.github.io/.

English

We present Muses, the first training-free method for fantastic 3D creature generation in a feed-forward paradigm. Previous methods, which rely on part-aware optimization, manual assembly, or 2D image generation, often produce unrealistic or incoherent 3D assets due to the challenges of intricate part-level manipulation and limited out-of-domain generation. In contrast, Muses leverages the 3D skeleton, a fundamental representation of biological forms, to explicitly and rationally compose diverse elements. This skeletal foundation formalizes 3D content creation as a structure-aware pipeline of design, composition, and generation. Muses begins by constructing a creatively composed 3D skeleton with coherent layout and scale through graph-constrained reasoning. This skeleton then guides a voxel-based assembly process within a structured latent space, integrating regions from different objects. Finally, image-guided appearance modeling under skeletal conditions is applied to generate a style-consistent and harmonious texture for the assembled shape. Extensive experiments establish Muses' state-of-the-art performance in terms of visual fidelity and alignment with textual descriptions, and potential on flexible 3D object editing. Project page: https://luhexiao.github.io/Muses.github.io/.