Surflo: Consistent 3D Oppervlaktestroommodel met Globale Toestand
Surflo: Consistent 3D Surface Flow Model with Global State
June 11, 2026
Auteurs: Antoine Guédon, Shu Nakamura, Nicolas Dufour, Jiahui Lei, Ko Nishino, Angjoo Kanazawa
cs.AI
Samenvatting
Geometrie is invariant aan gezichtspunt, waardoor elke verzameling afbeeldingen een redundante codering vormt van een enkele 3D-toestand. Bestaande feed-forward reconstructiemodellen slagen er niet in hiervan gebruik te maken: per-aanzicht methoden genereren overlappende, niet-uitgelijnde puntenkaarten die lineair groeien met het aantal invoerbeelden, terwijl globale-latent methoden zich vastleggen op een vaste uitvoer met lage resolutie. We introduceren Surflo, dat een variabel aantal ongeposeerde RGB-aanzichten comprimeert tot K latente tokens — één globale toestand — en georiënteerde 3D-oppervlakpunten decodeert door ze via flow matching onafhankelijk van ruis naar het oppervlak te transporteren. Dit bevrijdt de uitvoer van enig vast raster of tokenbudget: dezelfde latent levert in één enkele forward pass van enkele duizenden tot een miljoen punten op. Om de lokale inconsistenties te onderdrukken die inherent zijn aan onafhankelijke per-punt decodering, wordt tijdens de inferentie een begeleidingsterm gebruikt die nabijgelegen punten correleert door een fotometrische gradiënt in te brengen tijdens ODE-integratie. Surflo evenaart of overtreft feed-forward baselines op oppervlaktematen, is een orde van grootte sneller dan optimalisatiegebaseerde methoden die honderden aanzichten vereisen, en is de enige feed-forward benadering die een globale latent combineert met decodering op willekeurige resolutie.
English
Geometry is invariant to viewpoint, which makes any collection of images a redundant encoding of a single 3D state. Existing feed-forward reconstruction models fail to exploit this: per-view methods emit overlapping, unaligned pointmaps that grow linearly with input count, while global-latent methods commit to a fixed, low-resolution output. We introduce Surflo, which compresses a variable number of unposed RGB views into K latent tokens-one global state-and decodes oriented 3D surface points by independently transporting them from noise onto the surface via flow matching. This frees the output from any fixed grid or token budget: the same latent yields from a few thousand to a million points in a single forward pass. To suppress the local inconsistencies inherent to independent per-point decoding, an inference-time guidance term correlates nearby points by injecting a photometric gradient during ODE integration. Surflo matches or surpasses feed-forward baselines on surface metrics, runs an order of magnitude faster than optimization-based methods that require hundreds of views, and is the only feed-forward approach to combine a global latent with arbitrary-resolution decoding.