ChatPaper.aiChatPaper

TriSplat: simulatieklaar feed-forward 3D-scènereconstructie

TriSplat: Simulation-Ready Feed-Forward 3D Scene Reconstruction

May 25, 2026
Auteurs: Weijie Wang, Zimu Li, Jinchuan Shi, Zeyu Zhang, Botao Ye, Marc Pollefeys, Donny Y. Chen, Bohan Zhuang
cs.AI

Samenvatting

Sparse-view 3D-reconstructie wordt steeds vaker aangepakt met feed-forward splatting-netwerken die expliciete primitieven rechtstreeks uit beelden voorspellen. Toch blijven de meeste bestaande methoden gericht op Gauss-primitieven en geven ze oppervlakken slechts indirect bloot: het extraheren van een bruikbare mesh voor downstreamsimulatie, fysische redenering of belichaamde interactie vereist nog steeds dure nabewerkingsstappen die de feed-forward-belofte doorbreken. Deze beperking is vooral uitgesproken in pose-vrije omgevingen, waar scenestructuur en cameraparameters gezamenlijk moeten worden geschat uit schaarse waarnemingen. Wij presenteren TriSplat, een feed-forward reconstructienetwerk dat scènes representeert met georiënteerde driehoekprimitieven en rechtstreeks simulatieklare mesh-scènes exporteert in één enkele forward pass. Gegeven invoerbeelden voorspelt het netwerk lokale 3D-puntkaarten, driehoekattributen, cameraposities en optionele intrinsieke parameters. In plaats van driehoekoriëntatie te regresseren als een onbeperkte latente variabele, construeert onze aanpak geometrienormalen uit de voorspelde puntkaarten, verfijnt ze met een beeldgeconditioneerde normalenkop en zet ze om in stabiele lokale frames voor driehoekparametrisatie. Een mono-normaal bootstrap-schema stabiliseert de vroege training verder, terwijl transparantie- en vervagingsplanning de geleerde oppervlakterepresentatie progressief verscherpt voor directe mesh-extractie. Experimenten op RealEstate10K en DL3DV tonen aan dat deze representatie geometrisch getrouwere reconstructies oplevert dan Gauss-feed-forward-baselines, terwijl de kwaliteit van novel-view-rendering concurrerend blijft. Omdat de renderprimitieven zelf oppervlaktedriehoeken zijn, kan de uitvoer rechtstreeks worden ingevoerd in fysica-engines, botsingsdetectoren en standaardrenderingspijplijnen zonder enige conversie, wat het een praktische, simulatieklare oplossing maakt voor feed-forward 3D-scènereconstructie.
English
Sparse-view 3D reconstruction is increasingly addressed with feed-forward splatting networks that predict explicit primitives directly from images. Yet most existing methods remain centered on Gaussian primitives and expose surfaces only indirectly: extracting a usable mesh for downstream simulation, physics reasoning, or embodied interaction still requires expensive post-hoc steps that break the feed-forward promise. This limitation is especially pronounced in pose-free settings, where scene structure and camera parameters must be estimated jointly from sparse observations. We present TriSplat, a feed-forward reconstruction network that represents scenes with oriented triangle primitives and directly exports simulation-ready mesh scenes from a single forward pass. Given input images, the network predicts local 3D point maps, triangle attributes, camera poses, and optional intrinsics. Rather than regressing triangle orientation as an unconstrained latent variable, our approach constructs geometry normals from the predicted point maps, refines them with an image-conditioned normal head, and converts them into stable local frames for triangle parameterization. A mono-normal bootstrap schedule further stabilizes early training, while opacity and blur scheduling progressively sharpens the learned surface representation for direct mesh extraction. Experiments on RealEstate10K and DL3DV show that this representation produces more geometry-faithful reconstructions than Gaussian feed-forward baselines while maintaining competitive novel-view rendering quality. Because the rendering primitives are themselves surface triangles, the output can be directly ingested by physics engines, collision detectors, and standard rendering pipelines without any conversion, making it a practical simulation-ready solution for feed-forward 3D scene reconstruction.