AnyMoLe: Interpolación de Movimientos para Cualquier Personaje Aprovechando Modelos de Difusión de Vídeo

Resumen

A pesar de los recientes avances en la interpolación de movimiento basada en aprendizaje, se ha pasado por alto una limitación clave: la necesidad de conjuntos de datos específicos para cada personaje. En este trabajo, presentamos AnyMoLe, un método novedoso que aborda esta limitación al aprovechar modelos de difusión de video para generar fotogramas intermedios de movimiento para personajes arbitrarios sin necesidad de datos externos. Nuestro enfoque emplea un proceso de generación de fotogramas en dos etapas para mejorar la comprensión contextual. Además, para cerrar la brecha de dominio entre las animaciones de personajes del mundo real y las renderizadas, introducimos ICAdapt, una técnica de ajuste fino para modelos de difusión de video. Adicionalmente, proponemos una técnica de optimización de "imitación de movimiento-video", que permite la generación fluida de movimiento para personajes con estructuras articulares arbitrarias utilizando características 2D y 3D. AnyMoLe reduce significativamente la dependencia de datos mientras genera transiciones suaves y realistas, lo que lo hace aplicable a una amplia gama de tareas de interpolación de movimiento.

English

Despite recent advancements in learning-based motion in-betweening, a key limitation has been overlooked: the requirement for character-specific datasets. In this work, we introduce AnyMoLe, a novel method that addresses this limitation by leveraging video diffusion models to generate motion in-between frames for arbitrary characters without external data. Our approach employs a two-stage frame generation process to enhance contextual understanding. Furthermore, to bridge the domain gap between real-world and rendered character animations, we introduce ICAdapt, a fine-tuning technique for video diffusion models. Additionally, we propose a ``motion-video mimicking'' optimization technique, enabling seamless motion generation for characters with arbitrary joint structures using 2D and 3D-aware features. AnyMoLe significantly reduces data dependency while generating smooth and realistic transitions, making it applicable to a wide range of motion in-betweening tasks.

AnyMoLe: Interpolación de Movimientos para Cualquier Personaje Aprovechando Modelos de Difusión de Vídeo

AnyMoLe: Any Character Motion In-betweening Leveraging Video Diffusion Models

Resumen

Support