ReImagine: Repensando a Geração Controlável de Vídeos Humanos de Alta Qualidade por meio da Síntese com Prioridade de Imagem
ReImagine: Rethinking Controllable High-Quality Human Video Generation via Image-First Synthesis
April 21, 2026
Autores: Zhengwentai Sun, Keru Zheng, Chenghong Li, Hongjie Liao, Xihe Yang, Heyuan Li, Yihao Zhi, Shuliang Ning, Shuguang Cui, Xiaoguang Han
cs.AI
Resumo
A geração de vídeos humanos continua a ser um desafio devido à dificuldade de modelar conjuntamente a aparência humana, o movimento e o ponto de vista da câmara com dados multivista limitados. Os métodos existentes frequentemente abordam estes fatores separadamente, resultando numa controlabilidade limitada ou numa qualidade visual reduzida. Revisitamos este problema a partir de uma perspetiva orientada para a imagem, na qual a aparência humana de alta qualidade é aprendida através de geração de imagens e usada como um *prior* para a síntese de vídeo, desacoplando a modelação da aparência da consistência temporal. Propomos um *pipeline* controlável por pose e ponto de vista que combina um *backbone* de imagem pré-treinado com orientação de movimento baseada em SMPL-X, juntamente com uma fase de refinamento temporal sem treino baseada num modelo de difusão de vídeo pré-treinado. O nosso método produz vídeos de alta qualidade e temporalmente consistentes sob diversas poses e pontos de vista. Também disponibilizamos um conjunto de dados humano canónico e um modelo auxiliar para síntese composicional de imagens humanas. O código e os dados estão publicamente disponíveis em https://github.com/Taited/ReImagine.
English
Human video generation remains challenging due to the difficulty of jointly modeling human appearance, motion, and camera viewpoint under limited multi-view data. Existing methods often address these factors separately, resulting in limited controllability or reduced visual quality. We revisit this problem from an image-first perspective, where high-quality human appearance is learned via image generation and used as a prior for video synthesis, decoupling appearance modeling from temporal consistency. We propose a pose- and viewpoint-controllable pipeline that combines a pretrained image backbone with SMPL-X-based motion guidance, together with a training-free temporal refinement stage based on a pretrained video diffusion model. Our method produces high-quality, temporally consistent videos under diverse poses and viewpoints. We also release a canonical human dataset and an auxiliary model for compositional human image synthesis. Code and data are publicly available at https://github.com/Taited/ReImagine.