AnyMoLe: Interpolación de Movimientos para Cualquier Personaje Aprovechando Modelos de Difusión de Vídeo
AnyMoLe: Any Character Motion In-betweening Leveraging Video Diffusion Models
March 11, 2025
Autores: Kwan Yun, Seokhyeon Hong, Chaelin Kim, Junyong Noh
cs.AI
Resumen
A pesar de los recientes avances en la interpolación de movimiento basada en aprendizaje, se ha pasado por alto una limitación clave: la necesidad de conjuntos de datos específicos para cada personaje. En este trabajo, presentamos AnyMoLe, un método novedoso que aborda esta limitación al aprovechar modelos de difusión de video para generar fotogramas intermedios de movimiento para personajes arbitrarios sin necesidad de datos externos. Nuestro enfoque emplea un proceso de generación de fotogramas en dos etapas para mejorar la comprensión contextual. Además, para cerrar la brecha de dominio entre las animaciones de personajes del mundo real y las renderizadas, introducimos ICAdapt, una técnica de ajuste fino para modelos de difusión de video. Adicionalmente, proponemos una técnica de optimización de "imitación de movimiento-video", que permite la generación fluida de movimiento para personajes con estructuras articulares arbitrarias utilizando características 2D y 3D. AnyMoLe reduce significativamente la dependencia de datos mientras genera transiciones suaves y realistas, lo que lo hace aplicable a una amplia gama de tareas de interpolación de movimiento.
English
Despite recent advancements in learning-based motion in-betweening, a key
limitation has been overlooked: the requirement for character-specific
datasets. In this work, we introduce AnyMoLe, a novel method that addresses
this limitation by leveraging video diffusion models to generate motion
in-between frames for arbitrary characters without external data. Our approach
employs a two-stage frame generation process to enhance contextual
understanding. Furthermore, to bridge the domain gap between real-world and
rendered character animations, we introduce ICAdapt, a fine-tuning technique
for video diffusion models. Additionally, we propose a ``motion-video
mimicking'' optimization technique, enabling seamless motion generation for
characters with arbitrary joint structures using 2D and 3D-aware features.
AnyMoLe significantly reduces data dependency while generating smooth and
realistic transitions, making it applicable to a wide range of motion
in-betweening tasks.Summary
AI-Generated Summary