AnySplat: Прямое преобразование 3D-гауссовых сплатов из неограниченных ракурсов
AnySplat: Feed-forward 3D Gaussian Splatting from Unconstrained Views
May 29, 2025
Авторы: Lihan Jiang, Yucheng Mao, Linning Xu, Tao Lu, Kerui Ren, Yichen Jin, Xudong Xu, Mulin Yu, Jiangmiao Pang, Feng Zhao, Dahua Lin, Bo Dai
cs.AI
Аннотация
Мы представляем AnySplat — прямую нейронную сеть для синтеза новых видов из некалиброванных коллекций изображений. В отличие от традиционных конвейеров нейронного рендеринга, требующих известных поз камер и оптимизации для каждой сцены, или современных прямых методов, которые не справляются с вычислительной нагрузкой плотных видов, наша модель предсказывает всё за один проход. Один прямой проход позволяет получить набор 3D-гауссовых примитивов, кодирующих как геометрию сцены, так и её внешний вид, а также соответствующие внутренние и внешние параметры камеры для каждого входного изображения. Этот унифицированный подход легко масштабируется на случайно снятые многовидовые наборы данных без каких-либо аннотаций поз. В обширных оценках с нулевым обучением AnySplat соответствует качеству базовых методов, учитывающих позы, как в сценариях с разреженными, так и с плотными видами, превосходя существующие подходы, не требующие информации о позах. Кроме того, он значительно снижает задержку рендеринга по сравнению с оптимизационными нейронными полями, делая синтез новых видов в реальном времени доступным для неограниченных условий съёмки. Страница проекта: https://city-super.github.io/anysplat/
English
We introduce AnySplat, a feed forward network for novel view synthesis from
uncalibrated image collections. In contrast to traditional neural rendering
pipelines that demand known camera poses and per scene optimization, or recent
feed forward methods that buckle under the computational weight of dense views,
our model predicts everything in one shot. A single forward pass yields a set
of 3D Gaussian primitives encoding both scene geometry and appearance, and the
corresponding camera intrinsics and extrinsics for each input image. This
unified design scales effortlessly to casually captured, multi view datasets
without any pose annotations. In extensive zero shot evaluations, AnySplat
matches the quality of pose aware baselines in both sparse and dense view
scenarios while surpassing existing pose free approaches. Moreover, it greatly
reduce rendering latency compared to optimization based neural fields, bringing
real time novel view synthesis within reach for unconstrained capture
settings.Project page: https://city-super.github.io/anysplat/