AnySplat : Projection en avant de splats gaussiens 3D à partir de vues non contraintes
AnySplat: Feed-forward 3D Gaussian Splatting from Unconstrained Views
May 29, 2025
Auteurs: Lihan Jiang, Yucheng Mao, Linning Xu, Tao Lu, Kerui Ren, Yichen Jin, Xudong Xu, Mulin Yu, Jiangmiao Pang, Feng Zhao, Dahua Lin, Bo Dai
cs.AI
Résumé
Nous présentons AnySplat, un réseau feed-forward pour la synthèse de nouvelles vues à partir de collections d'images non calibrées. Contrairement aux pipelines traditionnels de rendu neuronal qui nécessitent des poses de caméra connues et une optimisation par scène, ou aux méthodes feed-forward récentes qui succombent sous le poids computationnel des vues denses, notre modèle prédit tout en une seule passe. Une seule passe avant produit un ensemble de primitives 3D Gaussiennes encodant à la fois la géométrie et l'apparence de la scène, ainsi que les paramètres intrinsèques et extrinsèques de la caméra pour chaque image d'entrée. Cette conception unifiée s'adapte sans effort à des jeux de données multivues capturés de manière informelle, sans aucune annotation de pose. Dans des évaluations en zero-shot approfondies, AnySplat atteint la qualité des références nécessitant des poses, que ce soit dans des scénarios de vues clairsemées ou denses, tout en surpassant les approches existantes ne nécessitant pas de poses. De plus, il réduit considérablement la latence de rendu par rapport aux champs neuronaux basés sur l'optimisation, rendant la synthèse de nouvelles vues en temps réel accessible pour des environnements de capture non contraints. Page du projet : https://city-super.github.io/anysplat/
English
We introduce AnySplat, a feed forward network for novel view synthesis from
uncalibrated image collections. In contrast to traditional neural rendering
pipelines that demand known camera poses and per scene optimization, or recent
feed forward methods that buckle under the computational weight of dense views,
our model predicts everything in one shot. A single forward pass yields a set
of 3D Gaussian primitives encoding both scene geometry and appearance, and the
corresponding camera intrinsics and extrinsics for each input image. This
unified design scales effortlessly to casually captured, multi view datasets
without any pose annotations. In extensive zero shot evaluations, AnySplat
matches the quality of pose aware baselines in both sparse and dense view
scenarios while surpassing existing pose free approaches. Moreover, it greatly
reduce rendering latency compared to optimization based neural fields, bringing
real time novel view synthesis within reach for unconstrained capture
settings.Project page: https://city-super.github.io/anysplat/