Генерация движения человека с учетом 2D: Move-in-2D
Move-in-2D: 2D-Conditioned Human Motion Generation
December 17, 2024
Авторы: Hsin-Ping Huang, Yang Zhou, Jui-Hsien Wang, Difan Liu, Feng Liu, Ming-Hsuan Yang, Zhan Xu
cs.AI
Аннотация
Генерация реалистичных видеороликов с участием людей остается сложной задачей, причем наиболее эффективные методы в настоящее время основаны на последовательности движений человека в качестве сигнала управления. Существующие подходы часто используют существующие движения, извлеченные из других видеороликов, что ограничивает применение определенными типами движений и глобальным соответствием сцен. Мы предлагаем подход Move-in-2D, новый метод генерации последовательностей движений человека, зависящий от изображения сцены, что позволяет получать разнообразные движения, адаптирующиеся к различным сценам. Наш подход использует модель диффузии, принимающую на вход как изображение сцены, так и текстовую подсказку, и генерирующую последовательность движения, адаптированную к сцене. Для обучения этой модели мы собрали крупномасштабный набор видеороликов с одиночными действиями людей, аннотируя каждое видео с соответствующим движением человека в качестве целевого выхода. Эксперименты показывают, что наш метод эффективно предсказывает движения человека, соответствующие изображению сцены после проекции. Более того, мы демонстрируем, что сгенерированная последовательность движения улучшает качество движения человека в задачах синтеза видеороликов.
English
Generating realistic human videos remains a challenging task, with the most
effective methods currently relying on a human motion sequence as a control
signal. Existing approaches often use existing motion extracted from other
videos, which restricts applications to specific motion types and global scene
matching. We propose Move-in-2D, a novel approach to generate human motion
sequences conditioned on a scene image, allowing for diverse motion that adapts
to different scenes. Our approach utilizes a diffusion model that accepts both
a scene image and text prompt as inputs, producing a motion sequence tailored
to the scene. To train this model, we collect a large-scale video dataset
featuring single-human activities, annotating each video with the corresponding
human motion as the target output. Experiments demonstrate that our method
effectively predicts human motion that aligns with the scene image after
projection. Furthermore, we show that the generated motion sequence improves
human motion quality in video synthesis tasks.Summary
AI-Generated Summary