ChatPaper.aiChatPaper

FreeSplatter: Splatting Gaussiano sem pose para Reconstrução 3D com Visualização Esparsa

FreeSplatter: Pose-free Gaussian Splatting for Sparse-view 3D Reconstruction

December 12, 2024
Autores: Jiale Xu, Shenghua Gao, Ying Shan
cs.AI

Resumo

Os modelos de reconstrução de visão esparsa existentes dependem fortemente de poses de câmera conhecidas com precisão. No entanto, derivar extrínsecos e intrínsecos da câmera a partir de imagens de visão esparsa apresenta desafios significativos. Neste trabalho, apresentamos o FreeSplatter, um framework de reconstrução altamente escalável e direto, capaz de gerar Gaussiana 3D de alta qualidade a partir de imagens de visão esparsa não calibradas e recuperar seus parâmetros de câmera em apenas alguns segundos. O FreeSplatter é construído com base em uma arquitetura de transformador simplificada, composta por blocos de autoatenção sequenciais que facilitam a troca de informações entre tokens de imagem de várias visualizações e as decodificam em primitivas 3D Gaussiana por pixel. As primitivas Gaussianas previstas estão situadas em um quadro de referência unificado, permitindo modelagem 3D de alta fidelidade e estimativa instantânea de parâmetros de câmera usando solucionadores prontos para uso. Para atender tanto à reconstrução centrada em objetos quanto em nível de cena, treinamos duas variantes de modelo do FreeSplatter em conjuntos de dados extensos. Em ambos os cenários, o FreeSplatter supera as linhas de base de última geração em termos de qualidade de reconstrução e precisão de estimativa de pose. Além disso, demonstramos o potencial do FreeSplatter em aprimorar a produtividade de aplicações subsequentes, como criação de conteúdo texto/imagem para 3D.
English
Existing sparse-view reconstruction models heavily rely on accurate known camera poses. However, deriving camera extrinsics and intrinsics from sparse-view images presents significant challenges. In this work, we present FreeSplatter, a highly scalable, feed-forward reconstruction framework capable of generating high-quality 3D Gaussians from uncalibrated sparse-view images and recovering their camera parameters in mere seconds. FreeSplatter is built upon a streamlined transformer architecture, comprising sequential self-attention blocks that facilitate information exchange among multi-view image tokens and decode them into pixel-wise 3D Gaussian primitives. The predicted Gaussian primitives are situated in a unified reference frame, allowing for high-fidelity 3D modeling and instant camera parameter estimation using off-the-shelf solvers. To cater to both object-centric and scene-level reconstruction, we train two model variants of FreeSplatter on extensive datasets. In both scenarios, FreeSplatter outperforms state-of-the-art baselines in terms of reconstruction quality and pose estimation accuracy. Furthermore, we showcase FreeSplatter's potential in enhancing the productivity of downstream applications, such as text/image-to-3D content creation.

Summary

AI-Generated Summary

PDF83December 13, 2024