ChatPaper.aiChatPaper

Animate Anyone 2: Animação de Imagens de Personagens de Alta Fidelidade com Afordância Ambiental

Animate Anyone 2: High-Fidelity Character Image Animation with Environment Affordance

February 10, 2025
Autores: Li Hu, Guangyuan Wang, Zhen Shen, Xin Gao, Dechao Meng, Lian Zhuo, Peng Zhang, Bang Zhang, Liefeng Bo
cs.AI

Resumo

Métodos recentes de animação de imagens de personagens baseados em modelos de difusão, como o Animate Anyone, têm alcançado progressos significativos na geração de animações de personagens consistentes e generalizáveis. No entanto, essas abordagens falham em produzir associações razoáveis entre os personagens e seus ambientes. Para superar essa limitação, apresentamos o Animate Anyone 2, que visa animar personagens com affordance ambiental. Além de extrair sinais de movimento de vídeos de origem, capturamos adicionalmente representações ambientais como entradas condicionais. O ambiente é formulado como a região excluindo os personagens, e nosso modelo gera personagens para preencher essas regiões, mantendo coerência com o contexto ambiental. Propomos uma estratégia de máscara agnóstica à forma que caracteriza de forma mais eficaz a relação entre personagem e ambiente. Além disso, para melhorar a fidelidade das interações com objetos, utilizamos um guia de objetos para extrair características dos objetos interativos e empregamos a mistura espacial para injeção de características. Também introduzimos uma estratégia de modulação de pose que permite ao modelo lidar com padrões de movimento mais diversos. Os resultados experimentais demonstram o desempenho superior do método proposto.
English
Recent character image animation methods based on diffusion models, such as Animate Anyone, have made significant progress in generating consistent and generalizable character animations. However, these approaches fail to produce reasonable associations between characters and their environments. To address this limitation, we introduce Animate Anyone 2, aiming to animate characters with environment affordance. Beyond extracting motion signals from source video, we additionally capture environmental representations as conditional inputs. The environment is formulated as the region with the exclusion of characters and our model generates characters to populate these regions while maintaining coherence with the environmental context. We propose a shape-agnostic mask strategy that more effectively characterizes the relationship between character and environment. Furthermore, to enhance the fidelity of object interactions, we leverage an object guider to extract features of interacting objects and employ spatial blending for feature injection. We also introduce a pose modulation strategy that enables the model to handle more diverse motion patterns. Experimental results demonstrate the superior performance of the proposed method.

Summary

AI-Generated Summary

PDF164February 13, 2025