DisPose: Ontwarren van houdingsbegeleiding voor controleerbare menselijke beeldanimatie

Samenvatting

Controleerbare menselijke beeldanimatie heeft als doel video's te genereren vanuit referentiebeelden met behulp van sturende video's. Vanwege de beperkte besturingsignalen die worden geleverd door schaarse begeleiding (bijv. skeletpose), hebben recente werken geprobeerd om aanvullende dichte voorwaarden (bijv. dieptekaart) te introduceren om bewegingsuitlijning te waarborgen. Echter, dergelijke strikte dichte begeleiding tast de kwaliteit van de gegenereerde video aan wanneer de lichaamsvorm van het referentiepersonage aanzienlijk verschilt van die van de sturende video. In dit artikel presenteren we DisPose om meer generaliseerbare en effectieve besturingsignalen te verkrijgen zonder aanvullende dichte invoer, die de schaarse skeletpose in menselijke beeldanimatie ontwarren in bewegingsveldbegeleiding en keypoints-correspondentie. Specifiek genereren we een dicht bewegingsveld vanuit een schaars bewegingsveld en het referentiebeeld, dat regioniveau dichte begeleiding biedt terwijl de generalisatie van de schaarse posebesturing behouden blijft. We extraheren ook diffusiekenmerken die overeenkomen met pose keypoints van het referentiebeeld, en vervolgens worden deze puntkenmerken overgebracht naar de doelpose om onderscheidende identiteitsinformatie te bieden. Om naadloos te integreren in bestaande modellen, stellen we een plug-and-play hybride ControlNet voor dat de kwaliteit en consistentie van gegenereerde video's verbetert terwijl de bestaande modelparameters worden bevroren. Uitgebreide kwalitatieve en kwantitatieve experimenten tonen de superioriteit van DisPose in vergelijking met huidige methoden aan. Code: https://github.com/lihxxx/DisPose.

English

Controllable human image animation aims to generate videos from reference images using driving videos. Due to the limited control signals provided by sparse guidance (e.g., skeleton pose), recent works have attempted to introduce additional dense conditions (e.g., depth map) to ensure motion alignment. However, such strict dense guidance impairs the quality of the generated video when the body shape of the reference character differs significantly from that of the driving video. In this paper, we present DisPose to mine more generalizable and effective control signals without additional dense input, which disentangles the sparse skeleton pose in human image animation into motion field guidance and keypoint correspondence. Specifically, we generate a dense motion field from a sparse motion field and the reference image, which provides region-level dense guidance while maintaining the generalization of the sparse pose control. We also extract diffusion features corresponding to pose keypoints from the reference image, and then these point features are transferred to the target pose to provide distinct identity information. To seamlessly integrate into existing models, we propose a plug-and-play hybrid ControlNet that improves the quality and consistency of generated videos while freezing the existing model parameters. Extensive qualitative and quantitative experiments demonstrate the superiority of DisPose compared to current methods. Code: https://github.com/lihxxx/DisPose{https://github.com/lihxxx/DisPose}.

DisPose: Ontwarren van houdingsbegeleiding voor controleerbare menselijke beeldanimatie

DisPose: Disentangling Pose Guidance for Controllable Human Image Animation

Samenvatting

Support