TriSplat: Simulationsbereite Feed-Forward-3D-Szenenrekonstruktion

Zusammenfassung

Die 3D-Rekonstruktion aus spärlichen Ansichten wird zunehmend durch Feed-Forward-Splatting-Netzwerke adressiert, die explizite Primitive direkt aus Bildern vorhersagen. Die meisten bestehenden Methoden konzentrieren sich jedoch weiterhin auf Gauß-Primitive und geben Oberflächen nur indirekt preis: Die Extraktion eines nutzbaren Netzes für nachgelagerte Simulationen, physikalische Schlussfolgerungen oder verkörperte Interaktion erfordert noch immer aufwändige nachträgliche Schritte, die das Feed-Forward-Versprechen brechen. Diese Einschränkung ist besonders in posenfreien Umgebungen ausgeprägt, wo Szenenstruktur und Kameraparameter gemeinsam aus spärlichen Beobachtungen geschätzt werden müssen. Wir stellen TriSplat vor, ein Feed-Forward-Rekonstruktionsnetzwerk, das Szenen mit orientierten Dreiecksprimitiven darstellt und direkt simulationsbereite Netz-Szenen aus einem einzigen Vorwärtsdurchlauf exportiert. Ausgehend von Eingabebildern sagt das Netzwerk lokale 3D-Punktkarten, Dreiecksattribute, Kameraposen und optionale intrinsische Parameter vorher. Anstatt die Dreiecksorientierung als uneingeschränkte latente Variable zu regressieren, konstruiert unser Ansatz geometrische Normalen aus den vorhergesagten Punktkarten, verfeinert sie mit einem bildkonditionierten Normalenkopf und wandelt sie in stabile lokale Bezugssysteme für die Dreiecksparametrisierung um. Ein Mono-Normal-Bootstrap-Plan stabilisiert weiterhin das frühe Training, während Opazitäts- und Unschärfe-Scheduling die gelernte Oberflächendarstellung für die direkte Netzextraktion schrittweise schärft. Experimente auf RealEstate10K und DL3DV zeigen, dass diese Darstellung geometrietreue Rekonstruktionen liefert als Gauß-Feed-Forward-Baselines, während sie eine wettbewerbsfähige Qualität der Neuansichtssynthese beibehält. Da die Rendering-Primitive selbst Oberflächendreiecke sind, kann die Ausgabe ohne jegliche Konvertierung direkt von Physik-Engines, Kollisionsdetektoren und Standard-Rendering-Pipelines aufgenommen werden, was sie zu einer praktischen, simulationsbereiten Lösung für die Feed-Forward-3D-Szenenrekonstruktion macht.

English

Sparse-view 3D reconstruction is increasingly addressed with feed-forward splatting networks that predict explicit primitives directly from images. Yet most existing methods remain centered on Gaussian primitives and expose surfaces only indirectly: extracting a usable mesh for downstream simulation, physics reasoning, or embodied interaction still requires expensive post-hoc steps that break the feed-forward promise. This limitation is especially pronounced in pose-free settings, where scene structure and camera parameters must be estimated jointly from sparse observations. We present TriSplat, a feed-forward reconstruction network that represents scenes with oriented triangle primitives and directly exports simulation-ready mesh scenes from a single forward pass. Given input images, the network predicts local 3D point maps, triangle attributes, camera poses, and optional intrinsics. Rather than regressing triangle orientation as an unconstrained latent variable, our approach constructs geometry normals from the predicted point maps, refines them with an image-conditioned normal head, and converts them into stable local frames for triangle parameterization. A mono-normal bootstrap schedule further stabilizes early training, while opacity and blur scheduling progressively sharpens the learned surface representation for direct mesh extraction. Experiments on RealEstate10K and DL3DV show that this representation produces more geometry-faithful reconstructions than Gaussian feed-forward baselines while maintaining competitive novel-view rendering quality. Because the rendering primitives are themselves surface triangles, the output can be directly ingested by physics engines, collision detectors, and standard rendering pipelines without any conversion, making it a practical simulation-ready solution for feed-forward 3D scene reconstruction.