Animare Chiunque 2: Animazione di Immagini di Personaggi ad Alta Fedeltà con Affordance Ambientale
Animate Anyone 2: High-Fidelity Character Image Animation with Environment Affordance
February 10, 2025
Autori: Li Hu, Guangyuan Wang, Zhen Shen, Xin Gao, Dechao Meng, Lian Zhuo, Peng Zhang, Bang Zhang, Liefeng Bo
cs.AI
Abstract
Recenti metodi di animazione di immagini di personaggi basati su modelli di diffusione, come Animate Anyone, hanno fatto progressi significativi nella generazione di animazioni di personaggi coerenti e generalizzabili. Tuttavia, questi approcci non riescono a produrre associazioni ragionevoli tra i personaggi e i loro ambienti. Per affrontare questa limitazione, presentiamo Animate Anyone 2, con l'obiettivo di animare personaggi con affordance ambientale. Oltre ad estrarre segnali di movimento dal video sorgente, catturiamo inoltre rappresentazioni ambientali come input condizionali. L'ambiente è formulato come la regione escludendo i personaggi e il nostro modello genera personaggi per popolare queste regioni mantenendo coerenza con il contesto ambientale. Proponiamo una strategia di mascheramento agnostica alla forma che caratterizza più efficacemente la relazione tra personaggio e ambiente. Inoltre, per migliorare la fedeltà delle interazioni degli oggetti, sfruttiamo una guida degli oggetti per estrarre le caratteristiche degli oggetti in interazione e utilizziamo il blending spaziale per l'iniezione di caratteristiche. Introduciamo anche una strategia di modulazione della posa che consente al modello di gestire modelli di movimento più diversificati. I risultati sperimentali dimostrano le prestazioni superiori del metodo proposto.
English
Recent character image animation methods based on diffusion models, such as
Animate Anyone, have made significant progress in generating consistent and
generalizable character animations. However, these approaches fail to produce
reasonable associations between characters and their environments. To address
this limitation, we introduce Animate Anyone 2, aiming to animate characters
with environment affordance. Beyond extracting motion signals from source
video, we additionally capture environmental representations as conditional
inputs. The environment is formulated as the region with the exclusion of
characters and our model generates characters to populate these regions while
maintaining coherence with the environmental context. We propose a
shape-agnostic mask strategy that more effectively characterizes the
relationship between character and environment. Furthermore, to enhance the
fidelity of object interactions, we leverage an object guider to extract
features of interacting objects and employ spatial blending for feature
injection. We also introduce a pose modulation strategy that enables the model
to handle more diverse motion patterns. Experimental results demonstrate the
superior performance of the proposed method.Summary
AI-Generated Summary