ChatPaper.aiChatPaper

FLAT: Feedforward Latent Driehoek Splatting voor Geometrisch Nauwkeurige Scènegeneratie

FLAT: Feedforward Latent Triangle Splatting for Geometrically Accurate Scene Generation

June 23, 2026
Auteurs: Orest Kupyn, Goutam Bhat, Philipp Henzler, Fabian Manhardt, Christian Rupprecht, Federico Tombari
cs.AI

Samenvatting

Het genereren van verkennbare 3D-scènes op basis van één enkele afbeelding vereist sterke generatieve voorkennis en nauwkeurige geometrische representaties die geschikt zijn voor downstream-gebruik. Huidige video-diffusiemodellen bieden generatie van hoge kwaliteit en coderen impliciet multi-view geometrische structuur in de latente ruimte. Bestaande feedforward latent scène-decoders geven echter doorgaans volumetrische 3D-Gaussiaanse functies weer, die geen goed gedefinieerd oppervlak hebben, wat hun gebruik in simulatie of standaard grafische pipelines beperkt. Dit motiveert het decoderen van oppervlak-uitgelijnde primitieven die niet alleen renderbaar zijn, maar ook dichter bij expliciete geometrische objecten staan. We vragen ons af of gecomprimeerde video-diffusie latenten in één enkele doorgang direct kunnen worden omgezet naar expliciete oppervlakteprimitieven. Hiertoe introduceren we FLAT en tonen we voor het eerst aan dat driehoek-splats direct kunnen worden gedecodeerd uit video-diffusie latenten. Vergeleken met het decoderen van 3D-Gaussiaanse functies is het voorspellen van platte primitieven berucht uitdagender vanwege de hoge gevoeligheid voor primitieforiëntaties, wat vaak leidt tot slechte gradiëntstroom. FLAT lost dit op met twee sleutelingrediënten: een straal-gecentreerde rotatieparameterisatie voor driehoekregressie en een nieuwe product-vensterfunctie die de gradiëntstroom tijdens differentieerbare driehoek-rendering verbetert. Op standaard benchmarks behaalt FLAT aanzienlijk betere geometrische nauwkeurigheid, terwijl de visuele kwaliteit concurrerend blijft vergeleken met state-of-the-art feedforward baselines. Verder tonen we aan dat een lichte testtijd-verfijningsstap de voorspelde driehoeksoep omzet in een volledig ondoorzichtige, game-engine-klare representatie die real-time rendering ondersteunt. Door 3DGS-, 2DGS- en driehoek-splattingvarianten te evalueren onder een identieke trainingsopzet, bieden we de eerste systematische analyse van representatie-afwegingen in feedforward scène-generatie. De projectpagina is beschikbaar op https://flat-splat.github.io.
English
Generating explorable 3D scenes from a single image requires strong generative priors and accurate geometric representations suitable for downstream use. Current video diffusion models offer high-quality generation and implicitly encode multi-view geometric structure in latent space. However, existing feedforward latent scene decoders typically output volumetric 3D Gaussians that lack a well-defined surface, limiting their use in simulation or standard graphics pipelines. This motivates decoding surface-aligned primitives that are not only renderable but also closer to explicit geometric assets. We ask whether compressed video diffusion latents can be mapped directly to explicit surface primitives in a single pass. To this end, we introduce FLAT and, for the first time, show that triangle splats can be decoded directly from video diffusion latents. Compared with decoding 3D Gaussians, predicting flat primitives is notoriously more challenging due to high sensitivity to primitive orientations, oftentimes leading to poor gradient flow. FLAT solves with two key ingredients: a ray-centered rotation parameterization for triangle regression and a novel product window function that improves gradient flow during differentiable triangle rendering. On standard benchmarks, FLAT achieves significantly better geometric accuracy while maintaining competitive visual quality compared to state-of-the-art feedforward baselines. We further show that a lightweight test-time refinement step converts the predicted triangle soup into a fully opaque, game-engine-ready representation that supports real-time rendering. By evaluating 3DGS, 2DGS, and triangle splatting variants under an identical training setup, we provide the first systematic analysis of representation tradeoffs in feedforward scene generation. The project page is available at https://flat-splat.github.io