ChatPaper.aiChatPaper

Movimiento-en-2D: Generación de Movimiento Humano Condicionado en 2D

Move-in-2D: 2D-Conditioned Human Motion Generation

December 17, 2024
Autores: Hsin-Ping Huang, Yang Zhou, Jui-Hsien Wang, Difan Liu, Feng Liu, Ming-Hsuan Yang, Zhan Xu
cs.AI

Resumen

Generar videos realistas de humanos sigue siendo una tarea desafiante, con los métodos más efectivos actualmente dependiendo de una secuencia de movimiento humano como señal de control. Los enfoques existentes a menudo utilizan movimientos existentes extraídos de otros videos, lo que restringe las aplicaciones a tipos de movimiento específicos y a la correspondencia global de escenas. Proponemos Move-in-2D, un enfoque novedoso para generar secuencias de movimiento humano condicionadas a una imagen de escena, lo que permite un movimiento diverso que se adapta a diferentes escenas. Nuestro enfoque utiliza un modelo de difusión que acepta tanto una imagen de escena como una indicación de texto como entradas, produciendo una secuencia de movimiento adaptada a la escena. Para entrenar este modelo, recopilamos un conjunto de datos de video a gran escala que presenta actividades de un solo humano, anotando cada video con el movimiento humano correspondiente como salida objetivo. Los experimentos demuestran que nuestro método predice de manera efectiva el movimiento humano que se alinea con la imagen de la escena después de la proyección. Además, mostramos que la secuencia de movimiento generada mejora la calidad del movimiento humano en tareas de síntesis de video.
English
Generating realistic human videos remains a challenging task, with the most effective methods currently relying on a human motion sequence as a control signal. Existing approaches often use existing motion extracted from other videos, which restricts applications to specific motion types and global scene matching. We propose Move-in-2D, a novel approach to generate human motion sequences conditioned on a scene image, allowing for diverse motion that adapts to different scenes. Our approach utilizes a diffusion model that accepts both a scene image and text prompt as inputs, producing a motion sequence tailored to the scene. To train this model, we collect a large-scale video dataset featuring single-human activities, annotating each video with the corresponding human motion as the target output. Experiments demonstrate that our method effectively predicts human motion that aligns with the scene image after projection. Furthermore, we show that the generated motion sequence improves human motion quality in video synthesis tasks.

Summary

AI-Generated Summary

PDF22December 20, 2024