ChatPaper.aiChatPaper

AnySplat: Proyección de Gaussianos 3D en modo feed-forward a partir de vistas no restringidas

AnySplat: Feed-forward 3D Gaussian Splatting from Unconstrained Views

May 29, 2025
Autores: Lihan Jiang, Yucheng Mao, Linning Xu, Tao Lu, Kerui Ren, Yichen Jin, Xudong Xu, Mulin Yu, Jiangmiao Pang, Feng Zhao, Dahua Lin, Bo Dai
cs.AI

Resumen

Presentamos AnySplat, una red de avance para la síntesis de nuevas vistas a partir de colecciones de imágenes no calibradas. A diferencia de las pipelines tradicionales de renderizado neuronal que requieren poses de cámara conocidas y optimización por escena, o los métodos recientes de avance que colapsan bajo el peso computacional de vistas densas, nuestro modelo predice todo en una sola pasada. Un único paso hacia adelante produce un conjunto de primitivas Gaussianas 3D que codifican tanto la geometría como la apariencia de la escena, junto con los parámetros intrínsecos y extrínsecos de la cámara para cada imagen de entrada. Este diseño unificado escala sin esfuerzo a conjuntos de datos multivista capturados casualmente, sin necesidad de anotaciones de pose. En evaluaciones extensas de cero disparo, AnySplat iguala la calidad de las líneas base con conocimiento de pose tanto en escenarios de vistas escasas como densas, superando a los enfoques existentes libres de pose. Además, reduce significativamente la latencia de renderizado en comparación con los campos neuronales basados en optimización, acercando la síntesis de nuevas vistas en tiempo real a configuraciones de captura sin restricciones. Página del proyecto: https://city-super.github.io/anysplat/
English
We introduce AnySplat, a feed forward network for novel view synthesis from uncalibrated image collections. In contrast to traditional neural rendering pipelines that demand known camera poses and per scene optimization, or recent feed forward methods that buckle under the computational weight of dense views, our model predicts everything in one shot. A single forward pass yields a set of 3D Gaussian primitives encoding both scene geometry and appearance, and the corresponding camera intrinsics and extrinsics for each input image. This unified design scales effortlessly to casually captured, multi view datasets without any pose annotations. In extensive zero shot evaluations, AnySplat matches the quality of pose aware baselines in both sparse and dense view scenarios while surpassing existing pose free approaches. Moreover, it greatly reduce rendering latency compared to optimization based neural fields, bringing real time novel view synthesis within reach for unconstrained capture settings.Project page: https://city-super.github.io/anysplat/
PDF312May 30, 2025