Animer n'importe qui 2 : Animation d'images de personnages haute fidélité avec prise en compte de l'environnement

papers.abstract

Les récents méthodes d'animation d'image de personnage basées sur des modèles de diffusion, telles que Animate Anyone, ont réalisé des progrès significatifs dans la génération d'animations de personnage cohérentes et généralisables. Cependant, ces approches échouent à produire des associations raisonnables entre les personnages et leur environnement. Pour remédier à cette limitation, nous présentons Animate Anyone 2, visant à animer des personnages avec une prise en compte de l'environnement. En plus d'extraire des signaux de mouvement à partir de vidéos source, nous capturons également des représentations environnementales en tant qu'entrées conditionnelles. L'environnement est formulé comme la région à l'exclusion des personnages et notre modèle génère des personnages pour peupler ces régions tout en maintenant la cohérence avec le contexte environnemental. Nous proposons une stratégie de masque agnostique de forme qui caractérise de manière plus efficace la relation entre le personnage et l'environnement. De plus, pour améliorer la fidélité des interactions d'objets, nous exploitons un guide d'objet pour extraire les caractéristiques des objets en interaction et utilisons un mélange spatial pour l'injection de caractéristiques. Nous introduisons également une stratégie de modulation de pose qui permet au modèle de gérer des motifs de mouvement plus diversifiés. Les résultats expérimentaux démontrent les performances supérieures de la méthode proposée.

English

Recent character image animation methods based on diffusion models, such as Animate Anyone, have made significant progress in generating consistent and generalizable character animations. However, these approaches fail to produce reasonable associations between characters and their environments. To address this limitation, we introduce Animate Anyone 2, aiming to animate characters with environment affordance. Beyond extracting motion signals from source video, we additionally capture environmental representations as conditional inputs. The environment is formulated as the region with the exclusion of characters and our model generates characters to populate these regions while maintaining coherence with the environmental context. We propose a shape-agnostic mask strategy that more effectively characterizes the relationship between character and environment. Furthermore, to enhance the fidelity of object interactions, we leverage an object guider to extract features of interacting objects and employ spatial blending for feature injection. We also introduce a pose modulation strategy that enables the model to handle more diverse motion patterns. Experimental results demonstrate the superior performance of the proposed method.

Animer n'importe qui 2 : Animation d'images de personnages haute fidélité avec prise en compte de l'environnement

Animate Anyone 2: High-Fidelity Character Image Animation with Environment Affordance

papers.abstract

Support