Diffuman4D: 4D-konsistente Synthese menschlicher Ansichten aus Videos mit wenigen Blickwinkeln mittels spatio-temporaler Diffusionsmodelle
Diffuman4D: 4D Consistent Human View Synthesis from Sparse-View Videos with Spatio-Temporal Diffusion Models
July 17, 2025
papers.authors: Yudong Jin, Sida Peng, Xuan Wang, Tao Xie, Zhen Xu, Yifan Yang, Yujun Shen, Hujun Bao, Xiaowei Zhou
cs.AI
papers.abstract
Diese Arbeit befasst sich mit der Herausforderung der hochauflösenden Ansichtssynthese von Menschen unter Verwendung von Videos mit wenigen Ansichten als Eingabe. Bisherige Methoden lösen das Problem der unzureichenden Beobachtung durch den Einsatz von 4D-Diffusionsmodellen, um Videos aus neuen Blickwinkeln zu generieren. Die von diesen Modellen erzeugten Videos weisen jedoch oft eine mangelnde räumlich-zeitliche Konsistenz auf, was die Qualität der Ansichtssynthese beeinträchtigt. In dieser Arbeit schlagen wir einen neuartigen gleitenden iterativen Denoising-Prozess vor, um die räumlich-zeitliche Konsistenz des 4D-Diffusionsmodells zu verbessern. Konkret definieren wir ein latentes Gitter, in dem jedes latente Element das Bild, die Kameraposition und die menschliche Pose für einen bestimmten Blickwinkel und Zeitpunkt kodiert. Anschließend wird das latente Gitter abwechselnd entlang der räumlichen und zeitlichen Dimensionen mit einem gleitenden Fenster denoisiert, und schließlich werden die Videos aus den entsprechenden denoisierten latenten Elementen in den Zielansichten dekodiert. Durch das iterative Gleiten fließen Informationen ausreichend durch das latente Gitter, wodurch das Diffusionsmodell ein großes rezeptives Feld erhält und somit die 4D-Konsistenz der Ausgabe verbessert wird, während der GPU-Speicherverbrauch in einem vertretbaren Rahmen bleibt. Die Experimente auf den Datensätzen DNA-Rendering und ActorsHQ zeigen, dass unsere Methode in der Lage ist, hochwertige und konsistente Videos aus neuen Blickwinkeln zu synthetisieren und die bestehenden Ansätze deutlich übertrifft. Interaktive Demos und Videoergebnisse finden Sie auf unserer Projektseite: https://diffuman4d.github.io/.
English
This paper addresses the challenge of high-fidelity view synthesis of humans
with sparse-view videos as input. Previous methods solve the issue of
insufficient observation by leveraging 4D diffusion models to generate videos
at novel viewpoints. However, the generated videos from these models often lack
spatio-temporal consistency, thus degrading view synthesis quality. In this
paper, we propose a novel sliding iterative denoising process to enhance the
spatio-temporal consistency of the 4D diffusion model. Specifically, we define
a latent grid in which each latent encodes the image, camera pose, and human
pose for a certain viewpoint and timestamp, then alternately denoising the
latent grid along spatial and temporal dimensions with a sliding window, and
finally decode the videos at target viewpoints from the corresponding denoised
latents. Through the iterative sliding, information flows sufficiently across
the latent grid, allowing the diffusion model to obtain a large receptive field
and thus enhance the 4D consistency of the output, while making the GPU memory
consumption affordable. The experiments on the DNA-Rendering and ActorsHQ
datasets demonstrate that our method is able to synthesize high-quality and
consistent novel-view videos and significantly outperforms the existing
approaches. See our project page for interactive demos and video results:
https://diffuman4d.github.io/ .