ReImagine: Ripensare la generazione di video umani di alta qualità controllabile tramite sintesi incentrata sull'immagine
ReImagine: Rethinking Controllable High-Quality Human Video Generation via Image-First Synthesis
April 21, 2026
Autori: Zhengwentai Sun, Keru Zheng, Chenghong Li, Hongjie Liao, Xihe Yang, Heyuan Li, Yihao Zhi, Shuliang Ning, Shuguang Cui, Xiaoguang Han
cs.AI
Abstract
La generazione di video umani rimane una sfida a causa della difficoltà di modellare congiuntamente l'aspetto umano, il movimento e il punto di vista della telecamera con dati multi-vista limitati. I metodi esistenti affrontano spesso questi fattori separatamente, ottenendo una controllabilità limitata o una qualità visiva ridotta. Noi affrontiamo questo problema da una prospettiva "image-first", in cui l'aspetto umano di alta qualità viene appreso tramite la generazione di immagini e utilizzato come prior per la sintesi video, disaccoppiando la modellazione dell'aspetto dalla coerenza temporale. Proponiamo una pipeline controllabile per pose e punto di vista che combina un backbone per immagini pre-addestrato con una guida al movimento basata su SMPL-X, insieme a una fase di raffinamento temporale senza training basata su un modello di diffusione video pre-addestrato. Il nostro metodo produce video di alta qualità e temporalmente coerenti in diverse pose e punti di vista. Rilasciamo anche un dataset umano canonico e un modello ausiliario per la sintesi compositiva di immagini umane. Codice e dati sono pubblicamente disponibili su https://github.com/Taited/ReImagine.
English
Human video generation remains challenging due to the difficulty of jointly modeling human appearance, motion, and camera viewpoint under limited multi-view data. Existing methods often address these factors separately, resulting in limited controllability or reduced visual quality. We revisit this problem from an image-first perspective, where high-quality human appearance is learned via image generation and used as a prior for video synthesis, decoupling appearance modeling from temporal consistency. We propose a pose- and viewpoint-controllable pipeline that combines a pretrained image backbone with SMPL-X-based motion guidance, together with a training-free temporal refinement stage based on a pretrained video diffusion model. Our method produces high-quality, temporally consistent videos under diverse poses and viewpoints. We also release a canonical human dataset and an auxiliary model for compositional human image synthesis. Code and data are publicly available at https://github.com/Taited/ReImagine.