ChatPaper.aiChatPaper

ReImagine: Een nieuwe kijk op bestuurbare hoogwaardige menselijke videogeneratie via beeld-eerst-synthese

ReImagine: Rethinking Controllable High-Quality Human Video Generation via Image-First Synthesis

April 21, 2026
Auteurs: Zhengwentai Sun, Keru Zheng, Chenghong Li, Hongjie Liao, Xihe Yang, Heyuan Li, Yihao Zhi, Shuliang Ning, Shuguang Cui, Xiaoguang Han
cs.AI

Samenvatting

Het genereren van menselijke video's blijft een uitdaging vanwege de moeilijkheid om menselijk uiterlijk, beweging en camerastandpunt gezamenlijk te modelleren met beperkte multi-view data. Bestaande methoden behandelen deze factoren vaak afzonderlijk, wat leidt tot beperkte bestuurbaarheid of verminderde visuele kwaliteit. Wij benaderen dit probleem opnieuw vanuit een beeld-eerst perspectief, waarbij hoogwaardig menselijk uiterlijk wordt aangeleerd via beeldgeneratie en gebruikt wordt als prior voor videosynthese, waardoor de modellering van uiterlijk wordt ontkoppeld van temporele consistentie. Wij stellen een pijplijn voor met bestuurbare poses en gezichtspunten die een vooraf getrainde beeldbackbone combineert met SMPL-X-gebaseerde bewegingsgeleiding, samen met een trainingsvrije temporele verfijningsfase gebaseerd op een vooraf getraind videodiffusiemodel. Onze methode produceert hoogwaardige, temporeel consistente video's onder diverse poses en gezichtspunten. Wij publiceren ook een canonieke humane dataset en een hulpmodel voor compositionele menselijke beeldgeneratie. Code en data zijn openbaar beschikbaar op https://github.com/Taited/ReImagine.
English
Human video generation remains challenging due to the difficulty of jointly modeling human appearance, motion, and camera viewpoint under limited multi-view data. Existing methods often address these factors separately, resulting in limited controllability or reduced visual quality. We revisit this problem from an image-first perspective, where high-quality human appearance is learned via image generation and used as a prior for video synthesis, decoupling appearance modeling from temporal consistency. We propose a pose- and viewpoint-controllable pipeline that combines a pretrained image backbone with SMPL-X-based motion guidance, together with a training-free temporal refinement stage based on a pretrained video diffusion model. Our method produces high-quality, temporally consistent videos under diverse poses and viewpoints. We also release a canonical human dataset and an auxiliary model for compositional human image synthesis. Code and data are publicly available at https://github.com/Taited/ReImagine.
PDF32April 24, 2026