ReImagine: Replanteamiento de la generación de vídeos humanos de alta calidad controlable mediante síntesis prioritaria de imágenes

Resumen

La generación de vídeos humanos sigue siendo un desafío debido a la dificultad de modelar conjuntamente la apariencia humana, el movimiento y el punto de vista de la cámara con datos multivisión limitados. Los métodos existentes a menudo abordan estos factores por separado, lo que resulta en una controlabilidad limitada o una calidad visual reducida. Revisitamos este problema desde una perspectiva centrada en la imagen, donde la apariencia humana de alta calidad se aprende mediante generación de imágenes y se utiliza como un previo para la síntesis de vídeo, desacoplando el modelado de apariencia de la consistencia temporal. Proponemos un pipeline controlable por pose y punto de vista que combina un backbone de imagen preentrenado con una guía de movimiento basada en SMPL-X, junto con una etapa de refinamiento temporal sin entrenamiento basada en un modelo de difusión de vídeo preentrenado. Nuestro método produce vídeos de alta calidad y temporalmente consistentes bajo diversas poses y puntos de vista. También publicamos un conjunto de datos humano canónico y un modelo auxiliar para la síntesis composicional de imágenes humanas. El código y los datos están disponibles públicamente en https://github.com/Taited/ReImagine.

English

Human video generation remains challenging due to the difficulty of jointly modeling human appearance, motion, and camera viewpoint under limited multi-view data. Existing methods often address these factors separately, resulting in limited controllability or reduced visual quality. We revisit this problem from an image-first perspective, where high-quality human appearance is learned via image generation and used as a prior for video synthesis, decoupling appearance modeling from temporal consistency. We propose a pose- and viewpoint-controllable pipeline that combines a pretrained image backbone with SMPL-X-based motion guidance, together with a training-free temporal refinement stage based on a pretrained video diffusion model. Our method produces high-quality, temporally consistent videos under diverse poses and viewpoints. We also release a canonical human dataset and an auxiliary model for compositional human image synthesis. Code and data are publicly available at https://github.com/Taited/ReImagine.

ReImagine: Replanteamiento de la generación de vídeos humanos de alta calidad controlable mediante síntesis prioritaria de imágenes

ReImagine: Rethinking Controllable High-Quality Human Video Generation via Image-First Synthesis

Resumen

Support