FreeSplatter: Splatting Gaussiano sem pose para Reconstrução 3D com Visualização Esparsa

Resumo

Os modelos de reconstrução de visão esparsa existentes dependem fortemente de poses de câmera conhecidas com precisão. No entanto, derivar extrínsecos e intrínsecos da câmera a partir de imagens de visão esparsa apresenta desafios significativos. Neste trabalho, apresentamos o FreeSplatter, um framework de reconstrução altamente escalável e direto, capaz de gerar Gaussiana 3D de alta qualidade a partir de imagens de visão esparsa não calibradas e recuperar seus parâmetros de câmera em apenas alguns segundos. O FreeSplatter é construído com base em uma arquitetura de transformador simplificada, composta por blocos de autoatenção sequenciais que facilitam a troca de informações entre tokens de imagem de várias visualizações e as decodificam em primitivas 3D Gaussiana por pixel. As primitivas Gaussianas previstas estão situadas em um quadro de referência unificado, permitindo modelagem 3D de alta fidelidade e estimativa instantânea de parâmetros de câmera usando solucionadores prontos para uso. Para atender tanto à reconstrução centrada em objetos quanto em nível de cena, treinamos duas variantes de modelo do FreeSplatter em conjuntos de dados extensos. Em ambos os cenários, o FreeSplatter supera as linhas de base de última geração em termos de qualidade de reconstrução e precisão de estimativa de pose. Além disso, demonstramos o potencial do FreeSplatter em aprimorar a produtividade de aplicações subsequentes, como criação de conteúdo texto/imagem para 3D.

English

Existing sparse-view reconstruction models heavily rely on accurate known camera poses. However, deriving camera extrinsics and intrinsics from sparse-view images presents significant challenges. In this work, we present FreeSplatter, a highly scalable, feed-forward reconstruction framework capable of generating high-quality 3D Gaussians from uncalibrated sparse-view images and recovering their camera parameters in mere seconds. FreeSplatter is built upon a streamlined transformer architecture, comprising sequential self-attention blocks that facilitate information exchange among multi-view image tokens and decode them into pixel-wise 3D Gaussian primitives. The predicted Gaussian primitives are situated in a unified reference frame, allowing for high-fidelity 3D modeling and instant camera parameter estimation using off-the-shelf solvers. To cater to both object-centric and scene-level reconstruction, we train two model variants of FreeSplatter on extensive datasets. In both scenarios, FreeSplatter outperforms state-of-the-art baselines in terms of reconstruction quality and pose estimation accuracy. Furthermore, we showcase FreeSplatter's potential in enhancing the productivity of downstream applications, such as text/image-to-3D content creation.

FreeSplatter: Splatting Gaussiano sem pose para Reconstrução 3D com Visualização Esparsa

FreeSplatter: Pose-free Gaussian Splatting for Sparse-view 3D Reconstruction

Resumo

Support