MorphAny3D: Раскрывая потенциал структурированного латентного пространства в 3D-морфинге
MorphAny3D: Unleashing the Power of Structured Latent in 3D Morphing
January 1, 2026
Авторы: Xiaokun Sun, Zeyu Cai, Hao Tang, Ying Tai, Jian Yang, Zhenyu Zhang
cs.AI
Аннотация
Трехмерный морфинг остается сложной задачей из-за трудностей генерации семантически согласованных и временно плавных деформаций, особенно между различными категориями. Мы представляем MorphAny3D, не требующий дообучения фреймворк, который использует структурированные латентные (SLAT) представления для высококачественного 3D-морфинга. Наше ключевое наблюдение заключается в том, что интеллектуальное смешивание исходных и целевых SLAT-признаков внутри механизмов внимания 3D-генераторов естественным образом порождает правдоподобные последовательности морфинга. Для этого мы вводим Morphing Cross-Attention (MCA), который объединяет исходную и целевую информацию для структурной согласованности, и Temporal-Fused Self-Attention (TFSA), который улучшает временную согласованность за счет включения признаков из предыдущих кадров. Стратегия коррекции ориентации дополнительно снижает неоднозначность позы на этапах морфинга. Многочисленные эксперименты показывают, что наш метод генерирует передовые последовательности морфинга, даже для сложных случаев межкатегорийного преобразования. MorphAny3D также поддерживает расширенные приложения, такие как развязанный морфинг и 3D-перенос стиля, и может быть обобщен для других генеративных моделей на основе SLAT. Страница проекта: https://xiaokunsun.github.io/MorphAny3D.github.io/.
English
3D morphing remains challenging due to the difficulty of generating semantically consistent and temporally smooth deformations, especially across categories. We present MorphAny3D, a training-free framework that leverages Structured Latent (SLAT) representations for high-quality 3D morphing. Our key insight is that intelligently blending source and target SLAT features within the attention mechanisms of 3D generators naturally produces plausible morphing sequences. To this end, we introduce Morphing Cross-Attention (MCA), which fuses source and target information for structural coherence, and Temporal-Fused Self-Attention (TFSA), which enhances temporal consistency by incorporating features from preceding frames. An orientation correction strategy further mitigates the pose ambiguity within the morphing steps. Extensive experiments show that our method generates state-of-the-art morphing sequences, even for challenging cross-category cases. MorphAny3D further supports advanced applications such as decoupled morphing and 3D style transfer, and can be generalized to other SLAT-based generative models. Project page: https://xiaokunsun.github.io/MorphAny3D.github.io/.