ChatPaper.aiChatPaper

ReImagine: Replanteamiento de la generación de vídeos humanos de alta calidad controlable mediante síntesis prioritaria de imágenes

ReImagine: Rethinking Controllable High-Quality Human Video Generation via Image-First Synthesis

April 21, 2026
Autores: Zhengwentai Sun, Keru Zheng, Chenghong Li, Hongjie Liao, Xihe Yang, Heyuan Li, Yihao Zhi, Shuliang Ning, Shuguang Cui, Xiaoguang Han
cs.AI

Resumen

La generación de vídeos humanos sigue siendo un desafío debido a la dificultad de modelar conjuntamente la apariencia humana, el movimiento y el punto de vista de la cámara con datos multivisión limitados. Los métodos existentes a menudo abordan estos factores por separado, lo que resulta en una controlabilidad limitada o una calidad visual reducida. Revisitamos este problema desde una perspectiva centrada en la imagen, donde la apariencia humana de alta calidad se aprende mediante generación de imágenes y se utiliza como un previo para la síntesis de vídeo, desacoplando el modelado de apariencia de la consistencia temporal. Proponemos un pipeline controlable por pose y punto de vista que combina un backbone de imagen preentrenado con una guía de movimiento basada en SMPL-X, junto con una etapa de refinamiento temporal sin entrenamiento basada en un modelo de difusión de vídeo preentrenado. Nuestro método produce vídeos de alta calidad y temporalmente consistentes bajo diversas poses y puntos de vista. También publicamos un conjunto de datos humano canónico y un modelo auxiliar para la síntesis composicional de imágenes humanas. El código y los datos están disponibles públicamente en https://github.com/Taited/ReImagine.
English
Human video generation remains challenging due to the difficulty of jointly modeling human appearance, motion, and camera viewpoint under limited multi-view data. Existing methods often address these factors separately, resulting in limited controllability or reduced visual quality. We revisit this problem from an image-first perspective, where high-quality human appearance is learned via image generation and used as a prior for video synthesis, decoupling appearance modeling from temporal consistency. We propose a pose- and viewpoint-controllable pipeline that combines a pretrained image backbone with SMPL-X-based motion guidance, together with a training-free temporal refinement stage based on a pretrained video diffusion model. Our method produces high-quality, temporally consistent videos under diverse poses and viewpoints. We also release a canonical human dataset and an auxiliary model for compositional human image synthesis. Code and data are publicly available at https://github.com/Taited/ReImagine.
PDF21April 24, 2026