Bewegen-in-2D: Generatie van Menselijke Beweging Geconditioneerd op 2D
Move-in-2D: 2D-Conditioned Human Motion Generation
December 17, 2024
Auteurs: Hsin-Ping Huang, Yang Zhou, Jui-Hsien Wang, Difan Liu, Feng Liu, Ming-Hsuan Yang, Zhan Xu
cs.AI
Samenvatting
Het genereren van realistische menselijke video's blijft een uitdagende taak, waarbij de meest effectieve methoden momenteel vertrouwen op een menselijke bewegingssequentie als een controle signaal. Bestaande benaderingen maken vaak gebruik van bestaande bewegingen die zijn geëxtraheerd uit andere video's, wat de toepassingen beperkt tot specifieke bewegingstypen en globale scène-overeenkomsten. Wij stellen Move-in-2D voor, een nieuwe benadering om menselijke bewegingssequenties te genereren die zijn geconditioneerd op een scènebeeld, waardoor diverse bewegingen ontstaan die zich aanpassen aan verschillende scènes. Onze benadering maakt gebruik van een diffusiemodel dat zowel een scènebeeld als tekstprompt accepteert als invoer, resulterend in een bewegingssequentie op maat van de scène. Om dit model te trainen, verzamelen we een grootschalige videodataset met enkele menselijke activiteiten, waarbij elke video wordt geannoteerd met de overeenkomstige menselijke beweging als de doeluitvoer. Experimenten tonen aan dat onze methode effectief menselijke bewegingen voorspelt die overeenkomen met het scènebeeld na projectie. Bovendien laten we zien dat de gegenereerde bewegingssequentie de kwaliteit van menselijke bewegingen verbetert bij taken voor videocompositie.
English
Generating realistic human videos remains a challenging task, with the most
effective methods currently relying on a human motion sequence as a control
signal. Existing approaches often use existing motion extracted from other
videos, which restricts applications to specific motion types and global scene
matching. We propose Move-in-2D, a novel approach to generate human motion
sequences conditioned on a scene image, allowing for diverse motion that adapts
to different scenes. Our approach utilizes a diffusion model that accepts both
a scene image and text prompt as inputs, producing a motion sequence tailored
to the scene. To train this model, we collect a large-scale video dataset
featuring single-human activities, annotating each video with the corresponding
human motion as the target output. Experiments demonstrate that our method
effectively predicts human motion that aligns with the scene image after
projection. Furthermore, we show that the generated motion sequence improves
human motion quality in video synthesis tasks.