ChatPaper.aiChatPaper

Bewegung-in-2D: Generierung von menschlicher Bewegung unter 2D-Bedingungen

Move-in-2D: 2D-Conditioned Human Motion Generation

December 17, 2024
Autoren: Hsin-Ping Huang, Yang Zhou, Jui-Hsien Wang, Difan Liu, Feng Liu, Ming-Hsuan Yang, Zhan Xu
cs.AI

Zusammenfassung

Die Generierung realistischer menschlicher Videos bleibt eine herausfordernde Aufgabe, wobei die effektivsten Methoden derzeit auf einer menschlichen Bewegungssequenz als Steuersignal beruhen. Bestehende Ansätze verwenden häufig vorhandene Bewegungen, die aus anderen Videos extrahiert wurden, was die Anwendungen auf spezifische Bewegungstypen und globale Szenenanpassungen beschränkt. Wir schlagen Move-in-2D vor, einen neuartigen Ansatz zur Generierung von menschlichen Bewegungssequenzen, die von einem Szenenbild abhängig sind und eine vielfältige Bewegung ermöglichen, die sich an verschiedene Szenen anpasst. Unser Ansatz nutzt ein Diffusionsmodell, das sowohl ein Szenenbild als auch einen Textprompt als Eingaben akzeptiert und eine auf die Szene zugeschnittene Bewegungssequenz erzeugt. Um dieses Modell zu trainieren, sammeln wir einen umfangreichen Videodatensatz mit Einzelaktivitäten von Menschen und annotieren jedes Video mit der entsprechenden menschlichen Bewegung als Zielausgabe. Experimente zeigen, dass unsere Methode effektiv menschliche Bewegungen vorhersagt, die mit dem Szenenbild nach der Projektion übereinstimmen. Darüber hinaus zeigen wir, dass die generierte Bewegungssequenz die Qualität der menschlichen Bewegung bei der Videosyntheseaufgaben verbessert.
English
Generating realistic human videos remains a challenging task, with the most effective methods currently relying on a human motion sequence as a control signal. Existing approaches often use existing motion extracted from other videos, which restricts applications to specific motion types and global scene matching. We propose Move-in-2D, a novel approach to generate human motion sequences conditioned on a scene image, allowing for diverse motion that adapts to different scenes. Our approach utilizes a diffusion model that accepts both a scene image and text prompt as inputs, producing a motion sequence tailored to the scene. To train this model, we collect a large-scale video dataset featuring single-human activities, annotating each video with the corresponding human motion as the target output. Experiments demonstrate that our method effectively predicts human motion that aligns with the scene image after projection. Furthermore, we show that the generated motion sequence improves human motion quality in video synthesis tasks.

Summary

AI-Generated Summary

PDF22December 20, 2024