TriSplat: Reconstrução de Cenas 3D Feed-Forward Pronta para Simulação

Resumo

A reconstrução 3D de visão esparsa é cada vez mais abordada com redes de splatting feed-forward que predizem primitivas explícitas diretamente a partir de imagens. No entanto, a maioria dos métodos existentes permanece centrada em primitivas Gaussianas e expõe superfícies apenas indiretamente: extrair uma malha utilizável para simulação downstream, raciocínio físico ou interação incorporada ainda requer etapas posteriores dispendiosas que quebram a promessa feed-forward. Essa limitação é especialmente pronunciada em configurações sem pose, onde a estrutura da cena e os parâmetros da câmera devem ser estimados conjuntamente a partir de observações esparsas. Apresentamos o TriSplat, uma rede de reconstrução feed-forward que representa cenas com primitivas triangulares orientadas e exporta diretamente cenas de malha prontas para simulação a partir de uma única passagem forward. Dadas imagens de entrada, a rede prediz mapas de pontos 3D locais, atributos dos triângulos, poses da câmera e parâmetros intrínsecos opcionais. Em vez de regredir a orientação dos triângulos como uma variável latente não restrita, nossa abordagem constrói normais geométricas a partir dos mapas de pontos preditos, refina-as com uma cabeça de normais condicionada à imagem e as converte em quadros locais estáveis para a parametrização dos triângulos. Uma programação de bootstrap mono-normal estabiliza ainda mais o treinamento inicial, enquanto a programação de opacidade e desfoque refina progressivamente a representação de superfície aprendida para extração direta de malha. Experimentos em RealEstate10K e DL3DV mostram que essa representação produz reconstruções mais fiéis à geometria do que as bases feed-forward Gaussianas, mantendo qualidade competitiva de renderização de vistas novas. Como as primitivas de renderização são, elas mesmas, triângulos de superfície, a saída pode ser diretamente ingerida por motores físicos, detectores de colisão e pipelines de renderização padrão, sem qualquer conversão, tornando-a uma solução prática e pronta para simulação para reconstrução feed-forward de cenas 3D.

English

Sparse-view 3D reconstruction is increasingly addressed with feed-forward splatting networks that predict explicit primitives directly from images. Yet most existing methods remain centered on Gaussian primitives and expose surfaces only indirectly: extracting a usable mesh for downstream simulation, physics reasoning, or embodied interaction still requires expensive post-hoc steps that break the feed-forward promise. This limitation is especially pronounced in pose-free settings, where scene structure and camera parameters must be estimated jointly from sparse observations. We present TriSplat, a feed-forward reconstruction network that represents scenes with oriented triangle primitives and directly exports simulation-ready mesh scenes from a single forward pass. Given input images, the network predicts local 3D point maps, triangle attributes, camera poses, and optional intrinsics. Rather than regressing triangle orientation as an unconstrained latent variable, our approach constructs geometry normals from the predicted point maps, refines them with an image-conditioned normal head, and converts them into stable local frames for triangle parameterization. A mono-normal bootstrap schedule further stabilizes early training, while opacity and blur scheduling progressively sharpens the learned surface representation for direct mesh extraction. Experiments on RealEstate10K and DL3DV show that this representation produces more geometry-faithful reconstructions than Gaussian feed-forward baselines while maintaining competitive novel-view rendering quality. Because the rendering primitives are themselves surface triangles, the output can be directly ingested by physics engines, collision detectors, and standard rendering pipelines without any conversion, making it a practical simulation-ready solution for feed-forward 3D scene reconstruction.