Animar a Cualquiera 2: Animación de Imágenes de Personajes de Alta Fidelidad con Aprovechamiento del Entorno

Resumen

Los métodos recientes de animación de imágenes de personajes basados en modelos de difusión, como Animate Anyone, han logrado avances significativos en la generación de animaciones de personajes consistentes y generalizables. Sin embargo, estos enfoques no logran establecer asociaciones razonables entre los personajes y sus entornos. Para abordar esta limitación, presentamos Animate Anyone 2, con el objetivo de animar personajes con capacidad de adaptación al entorno. Además de extraer señales de movimiento del video fuente, capturamos representaciones ambientales adicionales como entradas condicionales. El entorno se formula como la región excluyendo a los personajes y nuestro modelo genera personajes para poblar estas regiones manteniendo coherencia con el contexto ambiental. Proponemos una estrategia de máscara agnóstica a la forma que caracteriza de manera más efectiva la relación entre el personaje y el entorno. Además, para mejorar la fidelidad de las interacciones de objetos, aprovechamos un guía de objetos para extraer características de los objetos que interactúan y empleamos mezcla espacial para la inyección de características. También introducimos una estrategia de modulación de postura que permite al modelo manejar patrones de movimiento más diversos. Los resultados experimentales demuestran el rendimiento superior del método propuesto.

English

Recent character image animation methods based on diffusion models, such as Animate Anyone, have made significant progress in generating consistent and generalizable character animations. However, these approaches fail to produce reasonable associations between characters and their environments. To address this limitation, we introduce Animate Anyone 2, aiming to animate characters with environment affordance. Beyond extracting motion signals from source video, we additionally capture environmental representations as conditional inputs. The environment is formulated as the region with the exclusion of characters and our model generates characters to populate these regions while maintaining coherence with the environmental context. We propose a shape-agnostic mask strategy that more effectively characterizes the relationship between character and environment. Furthermore, to enhance the fidelity of object interactions, we leverage an object guider to extract features of interacting objects and employ spatial blending for feature injection. We also introduce a pose modulation strategy that enables the model to handle more diverse motion patterns. Experimental results demonstrate the superior performance of the proposed method.

Animar a Cualquiera 2: Animación de Imágenes de Personajes de Alta Fidelidad con Aprovechamiento del Entorno

Animate Anyone 2: High-Fidelity Character Image Animation with Environment Affordance

Resumen

Support