ChatPaper.aiChatPaper

ReImagine : Repenser la génération vidéo humaine de haute qualité contrôlable via une synthèse priorisant l'image

ReImagine: Rethinking Controllable High-Quality Human Video Generation via Image-First Synthesis

April 21, 2026
Auteurs: Zhengwentai Sun, Keru Zheng, Chenghong Li, Hongjie Liao, Xihe Yang, Heyuan Li, Yihao Zhi, Shuliang Ning, Shuguang Cui, Xiaoguang Han
cs.AI

Résumé

La génération de vidéos humaines reste difficile en raison de la complexité à modéliser conjointement l'apparence humaine, le mouvement et l'angle de vue de la caméra avec des données multi-vues limitées. Les méthodes existantes abordent souvent ces facteurs séparément, ce qui entraîne une contrôlabilité limitée ou une qualité visuelle réduite. Nous revisitons ce problème selon une perspective axée sur l'image, où l'apparence humaine de haute qualité est apprise via la génération d'images et utilisée comme préalable pour la synthèse vidéo, découplant ainsi la modélisation de l'apparence de la cohérence temporelle. Nous proposons un pipeline contrôlable par la pose et l'angle de vue qui combine un modèle pré-entraîné pour les images avec un guidage du mouvement basé sur SMPL-X, ainsi qu'une étape de raffinement temporel sans apprentissage basée sur un modèle de diffusion vidéo pré-entraîné. Notre méthode produit des vidéos de haute qualité et temporellement cohérentes sous diverses poses et angles de vue. Nous publions également un jeu de données humain canonique et un modèle auxiliaire pour la synthèse d'images humaines compositionnelle. Le code et les données sont disponibles publiquement à l'adresse https://github.com/Taited/ReImagine.
English
Human video generation remains challenging due to the difficulty of jointly modeling human appearance, motion, and camera viewpoint under limited multi-view data. Existing methods often address these factors separately, resulting in limited controllability or reduced visual quality. We revisit this problem from an image-first perspective, where high-quality human appearance is learned via image generation and used as a prior for video synthesis, decoupling appearance modeling from temporal consistency. We propose a pose- and viewpoint-controllable pipeline that combines a pretrained image backbone with SMPL-X-based motion guidance, together with a training-free temporal refinement stage based on a pretrained video diffusion model. Our method produces high-quality, temporally consistent videos under diverse poses and viewpoints. We also release a canonical human dataset and an auxiliary model for compositional human image synthesis. Code and data are publicly available at https://github.com/Taited/ReImagine.
PDF21April 24, 2026