Surflo: Consistent 3D Oppervlaktestroommodel met Globale Toestand

Samenvatting

Geometrie is invariant aan gezichtspunt, waardoor elke verzameling afbeeldingen een redundante codering vormt van een enkele 3D-toestand. Bestaande feed-forward reconstructiemodellen slagen er niet in hiervan gebruik te maken: per-aanzicht methoden genereren overlappende, niet-uitgelijnde puntenkaarten die lineair groeien met het aantal invoerbeelden, terwijl globale-latent methoden zich vastleggen op een vaste uitvoer met lage resolutie. We introduceren Surflo, dat een variabel aantal ongeposeerde RGB-aanzichten comprimeert tot K latente tokens — één globale toestand — en georiënteerde 3D-oppervlakpunten decodeert door ze via flow matching onafhankelijk van ruis naar het oppervlak te transporteren. Dit bevrijdt de uitvoer van enig vast raster of tokenbudget: dezelfde latent levert in één enkele forward pass van enkele duizenden tot een miljoen punten op. Om de lokale inconsistenties te onderdrukken die inherent zijn aan onafhankelijke per-punt decodering, wordt tijdens de inferentie een begeleidingsterm gebruikt die nabijgelegen punten correleert door een fotometrische gradiënt in te brengen tijdens ODE-integratie. Surflo evenaart of overtreft feed-forward baselines op oppervlaktematen, is een orde van grootte sneller dan optimalisatiegebaseerde methoden die honderden aanzichten vereisen, en is de enige feed-forward benadering die een globale latent combineert met decodering op willekeurige resolutie.

English

Geometry is invariant to viewpoint, which makes any collection of images a redundant encoding of a single 3D state. Existing feed-forward reconstruction models fail to exploit this: per-view methods emit overlapping, unaligned pointmaps that grow linearly with input count, while global-latent methods commit to a fixed, low-resolution output. We introduce Surflo, which compresses a variable number of unposed RGB views into K latent tokens-one global state-and decodes oriented 3D surface points by independently transporting them from noise onto the surface via flow matching. This frees the output from any fixed grid or token budget: the same latent yields from a few thousand to a million points in a single forward pass. To suppress the local inconsistencies inherent to independent per-point decoding, an inference-time guidance term correlates nearby points by injecting a photometric gradient during ODE integration. Surflo matches or surpasses feed-forward baselines on surface metrics, runs an order of magnitude faster than optimization-based methods that require hundreds of views, and is the only feed-forward approach to combine a global latent with arbitrary-resolution decoding.