DisPose: Ontwarren van houdingsbegeleiding voor controleerbare menselijke beeldanimatie
DisPose: Disentangling Pose Guidance for Controllable Human Image Animation
December 12, 2024
Auteurs: Hongxiang Li, Yaowei Li, Yuhang Yang, Junjie Cao, Zhihong Zhu, Xuxin Cheng, Long Chen
cs.AI
Samenvatting
Controleerbare menselijke beeldanimatie heeft als doel video's te genereren vanuit referentiebeelden met behulp van sturende video's. Vanwege de beperkte besturingsignalen die worden geleverd door schaarse begeleiding (bijv. skeletpose), hebben recente werken geprobeerd om aanvullende dichte voorwaarden (bijv. dieptekaart) te introduceren om bewegingsuitlijning te waarborgen. Echter, dergelijke strikte dichte begeleiding tast de kwaliteit van de gegenereerde video aan wanneer de lichaamsvorm van het referentiepersonage aanzienlijk verschilt van die van de sturende video. In dit artikel presenteren we DisPose om meer generaliseerbare en effectieve besturingsignalen te verkrijgen zonder aanvullende dichte invoer, die de schaarse skeletpose in menselijke beeldanimatie ontwarren in bewegingsveldbegeleiding en keypoints-correspondentie. Specifiek genereren we een dicht bewegingsveld vanuit een schaars bewegingsveld en het referentiebeeld, dat regioniveau dichte begeleiding biedt terwijl de generalisatie van de schaarse posebesturing behouden blijft. We extraheren ook diffusiekenmerken die overeenkomen met pose keypoints van het referentiebeeld, en vervolgens worden deze puntkenmerken overgebracht naar de doelpose om onderscheidende identiteitsinformatie te bieden. Om naadloos te integreren in bestaande modellen, stellen we een plug-and-play hybride ControlNet voor dat de kwaliteit en consistentie van gegenereerde video's verbetert terwijl de bestaande modelparameters worden bevroren. Uitgebreide kwalitatieve en kwantitatieve experimenten tonen de superioriteit van DisPose in vergelijking met huidige methoden aan. Code: https://github.com/lihxxx/DisPose.
English
Controllable human image animation aims to generate videos from reference
images using driving videos. Due to the limited control signals provided by
sparse guidance (e.g., skeleton pose), recent works have attempted to introduce
additional dense conditions (e.g., depth map) to ensure motion alignment.
However, such strict dense guidance impairs the quality of the generated video
when the body shape of the reference character differs significantly from that
of the driving video. In this paper, we present DisPose to mine more
generalizable and effective control signals without additional dense input,
which disentangles the sparse skeleton pose in human image animation into
motion field guidance and keypoint correspondence. Specifically, we generate a
dense motion field from a sparse motion field and the reference image, which
provides region-level dense guidance while maintaining the generalization of
the sparse pose control. We also extract diffusion features corresponding to
pose keypoints from the reference image, and then these point features are
transferred to the target pose to provide distinct identity information. To
seamlessly integrate into existing models, we propose a plug-and-play hybrid
ControlNet that improves the quality and consistency of generated videos while
freezing the existing model parameters. Extensive qualitative and quantitative
experiments demonstrate the superiority of DisPose compared to current methods.
Code:
https://github.com/lihxxx/DisPose{https://github.com/lihxxx/DisPose}.