Animare Chiunque 2: Animazione di Immagini di Personaggi ad Alta Fedeltà con Affordance Ambientale

Abstract

Recenti metodi di animazione di immagini di personaggi basati su modelli di diffusione, come Animate Anyone, hanno fatto progressi significativi nella generazione di animazioni di personaggi coerenti e generalizzabili. Tuttavia, questi approcci non riescono a produrre associazioni ragionevoli tra i personaggi e i loro ambienti. Per affrontare questa limitazione, presentiamo Animate Anyone 2, con l'obiettivo di animare personaggi con affordance ambientale. Oltre ad estrarre segnali di movimento dal video sorgente, catturiamo inoltre rappresentazioni ambientali come input condizionali. L'ambiente è formulato come la regione escludendo i personaggi e il nostro modello genera personaggi per popolare queste regioni mantenendo coerenza con il contesto ambientale. Proponiamo una strategia di mascheramento agnostica alla forma che caratterizza più efficacemente la relazione tra personaggio e ambiente. Inoltre, per migliorare la fedeltà delle interazioni degli oggetti, sfruttiamo una guida degli oggetti per estrarre le caratteristiche degli oggetti in interazione e utilizziamo il blending spaziale per l'iniezione di caratteristiche. Introduciamo anche una strategia di modulazione della posa che consente al modello di gestire modelli di movimento più diversificati. I risultati sperimentali dimostrano le prestazioni superiori del metodo proposto.

English

Recent character image animation methods based on diffusion models, such as Animate Anyone, have made significant progress in generating consistent and generalizable character animations. However, these approaches fail to produce reasonable associations between characters and their environments. To address this limitation, we introduce Animate Anyone 2, aiming to animate characters with environment affordance. Beyond extracting motion signals from source video, we additionally capture environmental representations as conditional inputs. The environment is formulated as the region with the exclusion of characters and our model generates characters to populate these regions while maintaining coherence with the environmental context. We propose a shape-agnostic mask strategy that more effectively characterizes the relationship between character and environment. Furthermore, to enhance the fidelity of object interactions, we leverage an object guider to extract features of interacting objects and employ spatial blending for feature injection. We also introduce a pose modulation strategy that enables the model to handle more diverse motion patterns. Experimental results demonstrate the superior performance of the proposed method.

Animare Chiunque 2: Animazione di Immagini di Personaggi ad Alta Fedeltà con Affordance Ambientale

Animate Anyone 2: High-Fidelity Character Image Animation with Environment Affordance

Abstract

Summary

Support

Support