Instant4D : Projection 4D par splines gaussiennes en quelques minutes
Instant4D: 4D Gaussian Splatting in Minutes
October 1, 2025
papers.authors: Zhanpeng Luo, Haoxi Ran, Li Lu
cs.AI
papers.abstract
La synthèse dynamique de vues a connu des avancées significatives, mais la reconstruction de scènes à partir de vidéos non calibrées et informelles reste un défi en raison de l'optimisation lente et de l'estimation complexe des paramètres. Dans ce travail, nous présentons Instant4D, un système de reconstruction monoculaire qui exploite une représentation native 4D pour traiter efficacement des séquences vidéo informelles en quelques minutes, sans caméras calibrées ni capteurs de profondeur. Notre méthode commence par une récupération géométrique via un SLAM visuel profond, suivie d'un élagage de grille pour optimiser la représentation de la scène. Notre conception réduit considérablement la redondance tout en préservant l'intégrité géométrique, réduisant la taille du modèle à moins de 10 % de son empreinte initiale. Pour gérer efficacement la dynamique temporelle, nous introduisons une représentation simplifiée en Gaussiennes 4D, obtenant une accélération de 30 fois et réduisant le temps d'entraînement à moins de deux minutes, tout en maintenant des performances compétitives sur plusieurs benchmarks. Notre méthode reconstruit une vidéo unique en moins de 10 minutes sur le dataset Dycheck ou pour une vidéo typique de 200 images. Nous appliquons également notre modèle à des vidéos en conditions réelles, démontrant ainsi sa généralisabilité. Notre site web de projet est publié à l'adresse https://instant4d.github.io/.
English
Dynamic view synthesis has seen significant advances, yet reconstructing
scenes from uncalibrated, casual video remains challenging due to slow
optimization and complex parameter estimation. In this work, we present
Instant4D, a monocular reconstruction system that leverages native 4D
representation to efficiently process casual video sequences within minutes,
without calibrated cameras or depth sensors. Our method begins with geometric
recovery through deep visual SLAM, followed by grid pruning to optimize scene
representation. Our design significantly reduces redundancy while maintaining
geometric integrity, cutting model size to under 10% of its original footprint.
To handle temporal dynamics efficiently, we introduce a streamlined 4D Gaussian
representation, achieving a 30x speed-up and reducing training time to within
two minutes, while maintaining competitive performance across several
benchmarks. Our method reconstruct a single video within 10 minutes on the
Dycheck dataset or for a typical 200-frame video. We further apply our model to
in-the-wild videos, showcasing its generalizability. Our project website is
published at https://instant4d.github.io/.