TriSplat : Reconstruction de scène 3D feed-forward prête pour la simulation

Résumé

La reconstruction 3D à vues clairsemées est de plus en plus traitée par des réseaux de *splatting* feed-forward qui prédisent des primitives explicites directement à partir des images. Pourtant, la plupart des méthodes existantes restent centrées sur les primitives gaussiennes et n’exposent les surfaces qu’indirectement : l’extraction d’un maillage exploitable pour la simulation en aval, le raisonnement physique ou l’interaction incarnée nécessite encore des étapes *post-hoc* coûteuses qui rompent la promesse du feed-forward. Cette limitation est particulièrement prononcée dans les contextes sans pose, où la structure de la scène et les paramètres de la caméra doivent être estimés conjointement à partir d’observations clairsemées. Nous présentons TriSplat, un réseau de reconstruction feed-forward qui représente les scènes avec des primitives triangulaires orientées et exporte directement, en un seul passage avant, des scènes maillées prêtes pour la simulation. À partir des images d’entrée, le réseau prédit des cartes de points 3D locales, les attributs des triangles, les poses de caméra et, optionnellement, les paramètres intrinsèques. Plutôt que de régresser l’orientation des triangles comme une variable latente non contrainte, notre approche construit les normales de géométrie à partir des cartes de points prédites, les affine avec une tête de normales conditionnée par l’image, et les convertit en repères locaux stables pour la paramétrisation des triangles. Un programme d’amorçage mono-normal stabilise davantage l’entraînement initial, tandis qu’une planification de l’opacité et du flou affine progressivement la représentation de surface apprise pour une extraction directe du maillage. Les expériences sur RealEstate10K et DL3DV montrent que cette représentation produit des reconstructions plus fidèles à la géométrie que les méthodes de base feed-forward à base de gaussiennes, tout en maintenant une qualité de rendu de nouvelle vue compétitive. Étant donné que les primitives de rendu sont elles-mêmes des triangles de surface, la sortie peut être directement ingérée par les moteurs physiques, les détecteurs de collision et les pipelines de rendu standard, sans aucune conversion, ce qui en fait une solution pratique prête pour la simulation pour la reconstruction de scènes 3D feed-forward.

English

Sparse-view 3D reconstruction is increasingly addressed with feed-forward splatting networks that predict explicit primitives directly from images. Yet most existing methods remain centered on Gaussian primitives and expose surfaces only indirectly: extracting a usable mesh for downstream simulation, physics reasoning, or embodied interaction still requires expensive post-hoc steps that break the feed-forward promise. This limitation is especially pronounced in pose-free settings, where scene structure and camera parameters must be estimated jointly from sparse observations. We present TriSplat, a feed-forward reconstruction network that represents scenes with oriented triangle primitives and directly exports simulation-ready mesh scenes from a single forward pass. Given input images, the network predicts local 3D point maps, triangle attributes, camera poses, and optional intrinsics. Rather than regressing triangle orientation as an unconstrained latent variable, our approach constructs geometry normals from the predicted point maps, refines them with an image-conditioned normal head, and converts them into stable local frames for triangle parameterization. A mono-normal bootstrap schedule further stabilizes early training, while opacity and blur scheduling progressively sharpens the learned surface representation for direct mesh extraction. Experiments on RealEstate10K and DL3DV show that this representation produces more geometry-faithful reconstructions than Gaussian feed-forward baselines while maintaining competitive novel-view rendering quality. Because the rendering primitives are themselves surface triangles, the output can be directly ingested by physics engines, collision detectors, and standard rendering pipelines without any conversion, making it a practical simulation-ready solution for feed-forward 3D scene reconstruction.