TriSplat: Готовая к симуляции feed-forward реконструкция трехмерной сцены

Аннотация

Восстановление 3D-сцен по малому числу ракурсов всё чаще выполняется с помощью сетей прямого распространения со сплаттингом, которые предсказывают явные примитивы непосредственно по изображениям. Однако большинство существующих методов по-прежнему сосредоточены на гауссовых примитивах и представляют поверхности лишь косвенно: извлечение пригодной для использования сетки для последующего моделирования, физического анализа или воплощённого взаимодействия по-прежнему требует дорогостоящих пост-шагов, нарушающих парадигму прямого распространения. Это ограничение особенно заметно в условиях отсутствия поз, где структура сцены и параметры камеры должны оцениваться совместно по разреженным наблюдениям. Мы представляем TriSplat — сеть прямого распространения для реконструкции, которая представляет сцены с помощью ориентированных треугольных примитивов и напрямую экспортирует готовые для моделирования сетчатые сцены за один прямой проход. Получив входные изображения, сеть предсказывает локальные трёхмерные карты точек, атрибуты треугольников, позы камер и опционально внутренние параметры. Вместо регрессии ориентации треугольников как неограниченной скрытой переменной наш подход строит геометрические нормали из предсказанных карт точек, уточняет их с помощью головы нормалей, обусловленной изображениями, и преобразует в устойчивые локальные системы координат для параметризации треугольников. Мононормальное расписание начальной загрузки дополнительно стабилизирует раннее обучение, а расписание непрозрачности и размытия постепенно улучшает представление изученной поверхности для прямого извлечения сетки. Эксперименты на RealEstate10K и DL3DV показывают, что такое представление даёт более геометрически точные реконструкции по сравнению с базовыми методами прямого распространения на гауссовых примитивах, сохраняя при этом конкурентоспособное качество синтеза новых ракурсов. Поскольку сами примитивы рендеринга являются поверхностными треугольниками, результат может быть напрямую передан физическим движкам, детекторам коллизий и стандартным конвейерам рендеринга без какого-либо преобразования, что делает это практическим решением, готовым для моделирования, в рамках прямого распространения для реконструкции трёхмерных сцен.

English

Sparse-view 3D reconstruction is increasingly addressed with feed-forward splatting networks that predict explicit primitives directly from images. Yet most existing methods remain centered on Gaussian primitives and expose surfaces only indirectly: extracting a usable mesh for downstream simulation, physics reasoning, or embodied interaction still requires expensive post-hoc steps that break the feed-forward promise. This limitation is especially pronounced in pose-free settings, where scene structure and camera parameters must be estimated jointly from sparse observations. We present TriSplat, a feed-forward reconstruction network that represents scenes with oriented triangle primitives and directly exports simulation-ready mesh scenes from a single forward pass. Given input images, the network predicts local 3D point maps, triangle attributes, camera poses, and optional intrinsics. Rather than regressing triangle orientation as an unconstrained latent variable, our approach constructs geometry normals from the predicted point maps, refines them with an image-conditioned normal head, and converts them into stable local frames for triangle parameterization. A mono-normal bootstrap schedule further stabilizes early training, while opacity and blur scheduling progressively sharpens the learned surface representation for direct mesh extraction. Experiments on RealEstate10K and DL3DV show that this representation produces more geometry-faithful reconstructions than Gaussian feed-forward baselines while maintaining competitive novel-view rendering quality. Because the rendering primitives are themselves surface triangles, the output can be directly ingested by physics engines, collision detectors, and standard rendering pipelines without any conversion, making it a practical simulation-ready solution for feed-forward 3D scene reconstruction.