ChatPaper.aiChatPaper

AnySplat : Projection en avant de splats gaussiens 3D à partir de vues non contraintes

AnySplat: Feed-forward 3D Gaussian Splatting from Unconstrained Views

May 29, 2025
Auteurs: Lihan Jiang, Yucheng Mao, Linning Xu, Tao Lu, Kerui Ren, Yichen Jin, Xudong Xu, Mulin Yu, Jiangmiao Pang, Feng Zhao, Dahua Lin, Bo Dai
cs.AI

Résumé

Nous présentons AnySplat, un réseau feed-forward pour la synthèse de nouvelles vues à partir de collections d'images non calibrées. Contrairement aux pipelines traditionnels de rendu neuronal qui nécessitent des poses de caméra connues et une optimisation par scène, ou aux méthodes feed-forward récentes qui succombent sous le poids computationnel des vues denses, notre modèle prédit tout en une seule passe. Une seule passe avant produit un ensemble de primitives 3D Gaussiennes encodant à la fois la géométrie et l'apparence de la scène, ainsi que les paramètres intrinsèques et extrinsèques de la caméra pour chaque image d'entrée. Cette conception unifiée s'adapte sans effort à des jeux de données multivues capturés de manière informelle, sans aucune annotation de pose. Dans des évaluations en zero-shot approfondies, AnySplat atteint la qualité des références nécessitant des poses, que ce soit dans des scénarios de vues clairsemées ou denses, tout en surpassant les approches existantes ne nécessitant pas de poses. De plus, il réduit considérablement la latence de rendu par rapport aux champs neuronaux basés sur l'optimisation, rendant la synthèse de nouvelles vues en temps réel accessible pour des environnements de capture non contraints. Page du projet : https://city-super.github.io/anysplat/
English
We introduce AnySplat, a feed forward network for novel view synthesis from uncalibrated image collections. In contrast to traditional neural rendering pipelines that demand known camera poses and per scene optimization, or recent feed forward methods that buckle under the computational weight of dense views, our model predicts everything in one shot. A single forward pass yields a set of 3D Gaussian primitives encoding both scene geometry and appearance, and the corresponding camera intrinsics and extrinsics for each input image. This unified design scales effortlessly to casually captured, multi view datasets without any pose annotations. In extensive zero shot evaluations, AnySplat matches the quality of pose aware baselines in both sparse and dense view scenarios while surpassing existing pose free approaches. Moreover, it greatly reduce rendering latency compared to optimization based neural fields, bringing real time novel view synthesis within reach for unconstrained capture settings.Project page: https://city-super.github.io/anysplat/
PDF312May 30, 2025