MorphAny3D: Liberando o Poder do Espaço Latente Estruturado na Morfologia 3D

Resumo

A morfagem 3D continua a ser um desafio devido à dificuldade de gerar deformações semanticamente consistentes e temporalmente suaves, especialmente entre categorias. Apresentamos o MorphAny3D, uma estrutura *training-free* que aproveita as representações *Structured Latent* (SLAT) para uma morfagem 3D de alta qualidade. A nossa principal perceção é que a combinação inteligente das características SLAT da fonte e do alvo nos mecanismos de atenção dos geradores 3D produz naturalmente sequências de morfagem plausíveis. Para tal, introduzimos a *Morphing Cross-Attention* (MCA), que funde a informação da fonte e do alvo para uma coerência estrutural, e a *Temporal-Fused Self-Attention* (TFSA), que melhora a consistência temporal ao incorporar características dos quadros precedentes. Uma estratégia de correção de orientação mitiga ainda mais a ambiguidade da pose dentro das etapas de morfagem. Experiências extensivas mostram que o nosso método gera sequências de morfagem de última geração, mesmo para casos desafiadores entre categorias. O MorphAny3D suporta ainda aplicações avançadas, como a morfagem desacoplada e a transferência de estilo 3D, e pode ser generalizado para outros modelos generativos baseados em SLAT. Página do projeto: https://xiaokunsun.github.io/MorphAny3D.github.io/.

English

3D morphing remains challenging due to the difficulty of generating semantically consistent and temporally smooth deformations, especially across categories. We present MorphAny3D, a training-free framework that leverages Structured Latent (SLAT) representations for high-quality 3D morphing. Our key insight is that intelligently blending source and target SLAT features within the attention mechanisms of 3D generators naturally produces plausible morphing sequences. To this end, we introduce Morphing Cross-Attention (MCA), which fuses source and target information for structural coherence, and Temporal-Fused Self-Attention (TFSA), which enhances temporal consistency by incorporating features from preceding frames. An orientation correction strategy further mitigates the pose ambiguity within the morphing steps. Extensive experiments show that our method generates state-of-the-art morphing sequences, even for challenging cross-category cases. MorphAny3D further supports advanced applications such as decoupled morphing and 3D style transfer, and can be generalized to other SLAT-based generative models. Project page: https://xiaokunsun.github.io/MorphAny3D.github.io/.