ReImagine: Neukonzeption der steuerbaren Erzeugung hochwertiger Humanvideos durch bildbasierte Synthese
ReImagine: Rethinking Controllable High-Quality Human Video Generation via Image-First Synthesis
April 21, 2026
Autoren: Zhengwentai Sun, Keru Zheng, Chenghong Li, Hongjie Liao, Xihe Yang, Heyuan Li, Yihao Zhi, Shuliang Ning, Shuguang Cui, Xiaoguang Han
cs.AI
Zusammenfassung
Die Erzeugung von Humanvideos bleibt aufgrund der Schwierigkeit einer gemeinsamen Modellierung von menschlicher Erscheinung, Bewegung und Kameraperspektive bei begrenzten multiview-Daten eine Herausforderung. Bestehende Methoden behandeln diese Faktoren oft separat, was zu eingeschränkter Steuerbarkeit oder reduzierter visueller Qualität führt. Wir betrachten dieses Problem neu aus einer bildorientierten Perspektive, bei der hochwertige menschliche Erscheinung durch Bildgenerierung erlernt und als Prior für die Videosynthese verwendet wird, wodurch die Erscheinungsmodellierung von zeitlicher Konsistenz entkoppelt wird. Wir schlagen eine pose- und perspektivensteuerbare Pipeline vor, die ein vortrainiertes Bild-Backbone mit SMPL-X-basierter Bewegungsführung kombiniert, ergänzt durch eine trainingsfreie zeitliche Verfeinerungsstufe auf Basis eines vortrainierten Video-Diffusionsmodells. Unsere Methode erzeugt hochwertige, zeitlich konsistente Videos unter verschiedenen Posen und Blickwinkeln. Wir veröffentlichen zudem einen kanonischen Human-Datensatz und ein Hilfsmodell für kompositionelle menschliche Bildsynthese. Code und Daten sind öffentlich verfügbar unter https://github.com/Taited/ReImagine.
English
Human video generation remains challenging due to the difficulty of jointly modeling human appearance, motion, and camera viewpoint under limited multi-view data. Existing methods often address these factors separately, resulting in limited controllability or reduced visual quality. We revisit this problem from an image-first perspective, where high-quality human appearance is learned via image generation and used as a prior for video synthesis, decoupling appearance modeling from temporal consistency. We propose a pose- and viewpoint-controllable pipeline that combines a pretrained image backbone with SMPL-X-based motion guidance, together with a training-free temporal refinement stage based on a pretrained video diffusion model. Our method produces high-quality, temporally consistent videos under diverse poses and viewpoints. We also release a canonical human dataset and an auxiliary model for compositional human image synthesis. Code and data are publicly available at https://github.com/Taited/ReImagine.