Animer n'importe qui 2 : Animation d'images de personnages haute fidélité avec prise en compte de l'environnement
Animate Anyone 2: High-Fidelity Character Image Animation with Environment Affordance
February 10, 2025
Auteurs: Li Hu, Guangyuan Wang, Zhen Shen, Xin Gao, Dechao Meng, Lian Zhuo, Peng Zhang, Bang Zhang, Liefeng Bo
cs.AI
Résumé
Les récents méthodes d'animation d'image de personnage basées sur des modèles de diffusion, telles que Animate Anyone, ont réalisé des progrès significatifs dans la génération d'animations de personnage cohérentes et généralisables. Cependant, ces approches échouent à produire des associations raisonnables entre les personnages et leur environnement. Pour remédier à cette limitation, nous présentons Animate Anyone 2, visant à animer des personnages avec une prise en compte de l'environnement. En plus d'extraire des signaux de mouvement à partir de vidéos source, nous capturons également des représentations environnementales en tant qu'entrées conditionnelles. L'environnement est formulé comme la région à l'exclusion des personnages et notre modèle génère des personnages pour peupler ces régions tout en maintenant la cohérence avec le contexte environnemental. Nous proposons une stratégie de masque agnostique de forme qui caractérise de manière plus efficace la relation entre le personnage et l'environnement. De plus, pour améliorer la fidélité des interactions d'objets, nous exploitons un guide d'objet pour extraire les caractéristiques des objets en interaction et utilisons un mélange spatial pour l'injection de caractéristiques. Nous introduisons également une stratégie de modulation de pose qui permet au modèle de gérer des motifs de mouvement plus diversifiés. Les résultats expérimentaux démontrent les performances supérieures de la méthode proposée.
English
Recent character image animation methods based on diffusion models, such as
Animate Anyone, have made significant progress in generating consistent and
generalizable character animations. However, these approaches fail to produce
reasonable associations between characters and their environments. To address
this limitation, we introduce Animate Anyone 2, aiming to animate characters
with environment affordance. Beyond extracting motion signals from source
video, we additionally capture environmental representations as conditional
inputs. The environment is formulated as the region with the exclusion of
characters and our model generates characters to populate these regions while
maintaining coherence with the environmental context. We propose a
shape-agnostic mask strategy that more effectively characterizes the
relationship between character and environment. Furthermore, to enhance the
fidelity of object interactions, we leverage an object guider to extract
features of interacting objects and employ spatial blending for feature
injection. We also introduce a pose modulation strategy that enables the model
to handle more diverse motion patterns. Experimental results demonstrate the
superior performance of the proposed method.