TriSplat: Reconstrucción de Escenas 3D de Propagación Hacia Adelante y Lista para Simulación

Resumen

La reconstrucción 3D desde vistas escasas se aborda cada vez más con redes de splatting feed-forward que predicen primitivas explícitas directamente a partir de imágenes. Sin embargo, la mayoría de los métodos existentes siguen centrados en primitivas gaussianas y exponen las superficies solo de manera indirecta: extraer una malla utilizable para simulación descendente, razonamiento físico o interacción corpórea aún requiere pasos posteriores costosos que rompen la promesa del feed-forward. Esta limitación es especialmente pronunciada en entornos sin pose, donde la estructura de la escena y los parámetros de la cámara deben estimarse conjuntamente a partir de observaciones escasas. Presentamos TriSplat, una red de reconstrucción feed-forward que representa escenas con primitivas triangulares orientadas y exporta directamente mallas listas para simulación en una única pasada directa. Dadas imágenes de entrada, la red predice mapas de puntos 3D locales, atributos de triángulos, poses de cámara e intrínsecos opcionales. En lugar de regresar la orientación del triángulo como una variable latente sin restricciones, nuestro enfoque construye normales de geometría a partir de los mapas de puntos predichos, las refina con una cabeza de normales condicionada por la imagen y las convierte en marcos locales estables para la parametrización del triángulo. Un programa de arranque mono-normal estabiliza además el entrenamiento temprano, mientras que la programación de opacidad y desenfoque afina progresivamente la representación de superficie aprendida para la extracción directa de mallas. Experimentos en RealEstate10K y DL3DV muestran que esta representación produce reconstrucciones más fieles a la geometría que las líneas base feed-forward con gaussianas, manteniendo una calidad competitiva en renderizado de vistas novedosas. Debido a que las primitivas de renderizado son en sí mismas triángulos de superficie, la salida puede ser ingerida directamente por motores físicos, detectores de colisiones y tuberías de renderizado estándar sin necesidad de conversión, lo que la convierte en una solución práctica lista para simulación en la reconstrucción de escenas 3D feed-forward.

English

Sparse-view 3D reconstruction is increasingly addressed with feed-forward splatting networks that predict explicit primitives directly from images. Yet most existing methods remain centered on Gaussian primitives and expose surfaces only indirectly: extracting a usable mesh for downstream simulation, physics reasoning, or embodied interaction still requires expensive post-hoc steps that break the feed-forward promise. This limitation is especially pronounced in pose-free settings, where scene structure and camera parameters must be estimated jointly from sparse observations. We present TriSplat, a feed-forward reconstruction network that represents scenes with oriented triangle primitives and directly exports simulation-ready mesh scenes from a single forward pass. Given input images, the network predicts local 3D point maps, triangle attributes, camera poses, and optional intrinsics. Rather than regressing triangle orientation as an unconstrained latent variable, our approach constructs geometry normals from the predicted point maps, refines them with an image-conditioned normal head, and converts them into stable local frames for triangle parameterization. A mono-normal bootstrap schedule further stabilizes early training, while opacity and blur scheduling progressively sharpens the learned surface representation for direct mesh extraction. Experiments on RealEstate10K and DL3DV show that this representation produces more geometry-faithful reconstructions than Gaussian feed-forward baselines while maintaining competitive novel-view rendering quality. Because the rendering primitives are themselves surface triangles, the output can be directly ingested by physics engines, collision detectors, and standard rendering pipelines without any conversion, making it a practical simulation-ready solution for feed-forward 3D scene reconstruction.