ChatPaper.aiChatPaper

AnySplat: Прямое преобразование 3D-гауссовых сплатов из неограниченных ракурсов

AnySplat: Feed-forward 3D Gaussian Splatting from Unconstrained Views

May 29, 2025
Авторы: Lihan Jiang, Yucheng Mao, Linning Xu, Tao Lu, Kerui Ren, Yichen Jin, Xudong Xu, Mulin Yu, Jiangmiao Pang, Feng Zhao, Dahua Lin, Bo Dai
cs.AI

Аннотация

Мы представляем AnySplat — прямую нейронную сеть для синтеза новых видов из некалиброванных коллекций изображений. В отличие от традиционных конвейеров нейронного рендеринга, требующих известных поз камер и оптимизации для каждой сцены, или современных прямых методов, которые не справляются с вычислительной нагрузкой плотных видов, наша модель предсказывает всё за один проход. Один прямой проход позволяет получить набор 3D-гауссовых примитивов, кодирующих как геометрию сцены, так и её внешний вид, а также соответствующие внутренние и внешние параметры камеры для каждого входного изображения. Этот унифицированный подход легко масштабируется на случайно снятые многовидовые наборы данных без каких-либо аннотаций поз. В обширных оценках с нулевым обучением AnySplat соответствует качеству базовых методов, учитывающих позы, как в сценариях с разреженными, так и с плотными видами, превосходя существующие подходы, не требующие информации о позах. Кроме того, он значительно снижает задержку рендеринга по сравнению с оптимизационными нейронными полями, делая синтез новых видов в реальном времени доступным для неограниченных условий съёмки. Страница проекта: https://city-super.github.io/anysplat/
English
We introduce AnySplat, a feed forward network for novel view synthesis from uncalibrated image collections. In contrast to traditional neural rendering pipelines that demand known camera poses and per scene optimization, or recent feed forward methods that buckle under the computational weight of dense views, our model predicts everything in one shot. A single forward pass yields a set of 3D Gaussian primitives encoding both scene geometry and appearance, and the corresponding camera intrinsics and extrinsics for each input image. This unified design scales effortlessly to casually captured, multi view datasets without any pose annotations. In extensive zero shot evaluations, AnySplat matches the quality of pose aware baselines in both sparse and dense view scenarios while surpassing existing pose free approaches. Moreover, it greatly reduce rendering latency compared to optimization based neural fields, bringing real time novel view synthesis within reach for unconstrained capture settings.Project page: https://city-super.github.io/anysplat/
PDF312May 30, 2025