AnyMoLe : Interpolation de mouvements pour tout personnage exploitant les modèles de diffusion vidéo
AnyMoLe: Any Character Motion In-betweening Leveraging Video Diffusion Models
March 11, 2025
Auteurs: Kwan Yun, Seokhyeon Hong, Chaelin Kim, Junyong Noh
cs.AI
Résumé
Malgré les récents progrès dans l'interpolation de mouvement basée sur l'apprentissage, une limitation clé a été négligée : la nécessité de jeux de données spécifiques à chaque personnage. Dans ce travail, nous présentons AnyMoLe, une nouvelle méthode qui aborde cette limitation en exploitant des modèles de diffusion vidéo pour générer des images intermédiaires de mouvement pour des personnages arbitraires sans données externes. Notre approche utilise un processus de génération d'images en deux étapes pour améliorer la compréhension contextuelle. De plus, pour combler l'écart de domaine entre les animations de personnages du monde réel et celles rendues, nous introduisons ICAdapt, une technique de fine-tuning pour les modèles de diffusion vidéo. Par ailleurs, nous proposons une technique d'optimisation de « mimétisme mouvement-vidéo », permettant une génération fluide de mouvements pour des personnages avec des structures articulaires arbitraires en utilisant des caractéristiques 2D et 3D. AnyMoLe réduit significativement la dépendance aux données tout en générant des transitions fluides et réalistes, le rendant applicable à un large éventail de tâches d'interpolation de mouvement.
English
Despite recent advancements in learning-based motion in-betweening, a key
limitation has been overlooked: the requirement for character-specific
datasets. In this work, we introduce AnyMoLe, a novel method that addresses
this limitation by leveraging video diffusion models to generate motion
in-between frames for arbitrary characters without external data. Our approach
employs a two-stage frame generation process to enhance contextual
understanding. Furthermore, to bridge the domain gap between real-world and
rendered character animations, we introduce ICAdapt, a fine-tuning technique
for video diffusion models. Additionally, we propose a ``motion-video
mimicking'' optimization technique, enabling seamless motion generation for
characters with arbitrary joint structures using 2D and 3D-aware features.
AnyMoLe significantly reduces data dependency while generating smooth and
realistic transitions, making it applicable to a wide range of motion
in-betweening tasks.Summary
AI-Generated Summary