ChatPaper.aiChatPaper

Анимация любого персонажа 2: Анимация изображения персонажа высокой точности с учётом окружения

Animate Anyone 2: High-Fidelity Character Image Animation with Environment Affordance

February 10, 2025
Авторы: Li Hu, Guangyuan Wang, Zhen Shen, Xin Gao, Dechao Meng, Lian Zhuo, Peng Zhang, Bang Zhang, Liefeng Bo
cs.AI

Аннотация

Недавние методы анимации изображений персонажей на основе моделей диффузии, такие как Animate Anyone, значительно продвинулись в создании последовательных и обобщаемых анимаций персонажей. Однако эти подходы не способны создавать разумные ассоциации между персонажами и их окружением. Для преодоления этого ограничения мы представляем Animate Anyone 2, нацеленный на анимацию персонажей с учетом окружающей среды. Помимо извлечения сигналов движения из исходного видео, мы дополнительно захватываем представления окружения как условные входы. Окружение формулируется как область за исключением персонажей, и наша модель генерирует персонажей для заполнения этих областей, сохраняя согласованность с окружающим контекстом. Мы предлагаем стратегию маски без учета формы, которая более эффективно характеризует отношение между персонажем и окружением. Кроме того, для улучшения достоверности взаимодействий объектов мы используем направляющий объект для извлечения признаков взаимодействующих объектов и применяем пространственное смешивание для внедрения признаков. Мы также представляем стратегию модуляции позы, которая позволяет модели обрабатывать более разнообразные шаблоны движения. Экспериментальные результаты демонстрируют превосходную производительность предложенного метода.
English
Recent character image animation methods based on diffusion models, such as Animate Anyone, have made significant progress in generating consistent and generalizable character animations. However, these approaches fail to produce reasonable associations between characters and their environments. To address this limitation, we introduce Animate Anyone 2, aiming to animate characters with environment affordance. Beyond extracting motion signals from source video, we additionally capture environmental representations as conditional inputs. The environment is formulated as the region with the exclusion of characters and our model generates characters to populate these regions while maintaining coherence with the environmental context. We propose a shape-agnostic mask strategy that more effectively characterizes the relationship between character and environment. Furthermore, to enhance the fidelity of object interactions, we leverage an object guider to extract features of interacting objects and employ spatial blending for feature injection. We also introduce a pose modulation strategy that enables the model to handle more diverse motion patterns. Experimental results demonstrate the superior performance of the proposed method.
PDF175February 13, 2025