ChatPaper.aiChatPaper

ViDAR : Reconstruction 4D basée sur la diffusion vidéo à partir d'entrées monoculaires

ViDAR: Video Diffusion-Aware 4D Reconstruction From Monocular Inputs

June 23, 2025
Auteurs: Michal Nazarczuk, Sibi Catley-Chandar, Thomas Tanay, Zhensong Zhang, Gregory Slabaugh, Eduardo Pérez-Pellitero
cs.AI

Résumé

La synthèse dynamique de nouvelles vues vise à générer des vues photoréalistes de sujets en mouvement à partir de points de vue arbitraires. Cette tâche est particulièrement difficile lorsqu'elle repose sur une vidéo monoculaire, où la séparation de la structure et du mouvement est mal posée et la supervision est limitée. Nous introduisons ViDAR (Video Diffusion-Aware Reconstruction), un nouveau cadre de reconstruction 4D qui exploite des modèles de diffusion personnalisés pour synthétiser un signal de supervision pseudo multi-vues afin d'entraîner une représentation par splatting gaussien. En se conditionnant sur des caractéristiques spécifiques à la scène, ViDAR récupère des détails d'apparence fins tout en atténuant les artefacts introduits par l'ambiguïté monoculaire. Pour résoudre l'incohérence spatio-temporelle de la supervision basée sur la diffusion, nous proposons une fonction de loss adaptée à la diffusion et une stratégie d'optimisation de la pose de la caméra qui aligne les vues synthétiques avec la géométrie sous-jacente de la scène. Les expériences sur DyCheck, un benchmark exigeant avec des variations extrêmes de point de vue, montrent que ViDAR surpasse tous les modèles de référence en termes de qualité visuelle et de cohérence géométrique. Nous mettons également en avant l'amélioration significative de ViDAR par rapport aux modèles de référence sur les régions dynamiques et proposons un nouveau benchmark pour comparer les performances dans la reconstruction des parties riches en mouvement de la scène. Page du projet : https://vidar-4d.github.io
English
Dynamic Novel View Synthesis aims to generate photorealistic views of moving subjects from arbitrary viewpoints. This task is particularly challenging when relying on monocular video, where disentangling structure from motion is ill-posed and supervision is scarce. We introduce Video Diffusion-Aware Reconstruction (ViDAR), a novel 4D reconstruction framework that leverages personalised diffusion models to synthesise a pseudo multi-view supervision signal for training a Gaussian splatting representation. By conditioning on scene-specific features, ViDAR recovers fine-grained appearance details while mitigating artefacts introduced by monocular ambiguity. To address the spatio-temporal inconsistency of diffusion-based supervision, we propose a diffusion-aware loss function and a camera pose optimisation strategy that aligns synthetic views with the underlying scene geometry. Experiments on DyCheck, a challenging benchmark with extreme viewpoint variation, show that ViDAR outperforms all state-of-the-art baselines in visual quality and geometric consistency. We further highlight ViDAR's strong improvement over baselines on dynamic regions and provide a new benchmark to compare performance in reconstructing motion-rich parts of the scene. Project page: https://vidar-4d.github.io
PDF271June 24, 2025