ReImagine: Переосмысление управляемой генерации высококачественных видео с людьми через синтез на основе изображений
ReImagine: Rethinking Controllable High-Quality Human Video Generation via Image-First Synthesis
April 21, 2026
Авторы: Zhengwentai Sun, Keru Zheng, Chenghong Li, Hongjie Liao, Xihe Yang, Heyuan Li, Yihao Zhi, Shuliang Ning, Shuguang Cui, Xiaoguang Han
cs.AI
Аннотация
Генерация видео с людьми остается сложной задачей из-за трудностей совместного моделирования внешнего вида человека, движения и точки съемки при ограниченных многовидовых данных. Существующие методы часто рассматривают эти факторы раздельно, что приводит к ограниченной управляемости или снижению визуального качества. Мы пересматриваем эту проблему с позиции приоритета изображения, где высококачественный внешний вид человека изучается посредством генерации изображений и используется как априор для синтеза видео, разделяя моделирование внешнего вида и временной согласованности. Мы предлагаем управляемый позой и точкой обзора конвейер, который сочетает предварительно обученный базовый модель для изображений с управлением движением на основе SMPL-X, а также свободный от обучения этап временного уточнения на основе предварительно обученной диффузионной модели видео. Наш метод позволяет создавать высококачественные, временно согласованные видео в разнообразных позах и ракурсах. Мы также публикуем канонический набор данных о человеке и вспомогательную модель для композиционного синтеза изображений человека. Код и данные находятся в открытом доступе по адресу https://github.com/Taited/ReImagine.
English
Human video generation remains challenging due to the difficulty of jointly modeling human appearance, motion, and camera viewpoint under limited multi-view data. Existing methods often address these factors separately, resulting in limited controllability or reduced visual quality. We revisit this problem from an image-first perspective, where high-quality human appearance is learned via image generation and used as a prior for video synthesis, decoupling appearance modeling from temporal consistency. We propose a pose- and viewpoint-controllable pipeline that combines a pretrained image backbone with SMPL-X-based motion guidance, together with a training-free temporal refinement stage based on a pretrained video diffusion model. Our method produces high-quality, temporally consistent videos under diverse poses and viewpoints. We also release a canonical human dataset and an auxiliary model for compositional human image synthesis. Code and data are publicly available at https://github.com/Taited/ReImagine.