Анимация любого персонажа 2: Анимация изображения персонажа высокой точности с учётом окружения
Animate Anyone 2: High-Fidelity Character Image Animation with Environment Affordance
February 10, 2025
Авторы: Li Hu, Guangyuan Wang, Zhen Shen, Xin Gao, Dechao Meng, Lian Zhuo, Peng Zhang, Bang Zhang, Liefeng Bo
cs.AI
Аннотация
Недавние методы анимации изображений персонажей на основе моделей диффузии, такие как Animate Anyone, значительно продвинулись в создании последовательных и обобщаемых анимаций персонажей. Однако эти подходы не способны создавать разумные ассоциации между персонажами и их окружением. Для преодоления этого ограничения мы представляем Animate Anyone 2, нацеленный на анимацию персонажей с учетом окружающей среды. Помимо извлечения сигналов движения из исходного видео, мы дополнительно захватываем представления окружения как условные входы. Окружение формулируется как область за исключением персонажей, и наша модель генерирует персонажей для заполнения этих областей, сохраняя согласованность с окружающим контекстом. Мы предлагаем стратегию маски без учета формы, которая более эффективно характеризует отношение между персонажем и окружением. Кроме того, для улучшения достоверности взаимодействий объектов мы используем направляющий объект для извлечения признаков взаимодействующих объектов и применяем пространственное смешивание для внедрения признаков. Мы также представляем стратегию модуляции позы, которая позволяет модели обрабатывать более разнообразные шаблоны движения. Экспериментальные результаты демонстрируют превосходную производительность предложенного метода.
English
Recent character image animation methods based on diffusion models, such as
Animate Anyone, have made significant progress in generating consistent and
generalizable character animations. However, these approaches fail to produce
reasonable associations between characters and their environments. To address
this limitation, we introduce Animate Anyone 2, aiming to animate characters
with environment affordance. Beyond extracting motion signals from source
video, we additionally capture environmental representations as conditional
inputs. The environment is formulated as the region with the exclusion of
characters and our model generates characters to populate these regions while
maintaining coherence with the environmental context. We propose a
shape-agnostic mask strategy that more effectively characterizes the
relationship between character and environment. Furthermore, to enhance the
fidelity of object interactions, we leverage an object guider to extract
features of interacting objects and employ spatial blending for feature
injection. We also introduce a pose modulation strategy that enables the model
to handle more diverse motion patterns. Experimental results demonstrate the
superior performance of the proposed method.