Surflo: Konsistentes 3D-Oberflächenströmungsmodell mit globalem Zustand

Zusammenfassung

Geometrie ist invariant gegenüber dem Blickwinkel, wodurch jede Sammlung von Bildern eine redundante Kodierung eines einzigen 3D-Zustands darstellt. Bestehende Feed-Forward-Rekonstruktionsmodelle nutzen dies nicht aus: Pro-Ansicht-Methoden erzeugen überlappende, nicht ausgerichtete Punktkarten, die linear mit der Anzahl der Eingaben wachsen, während globale latente Methoden eine feste Ausgabe mit niedriger Auflösung liefern. Wir stellen Surflo vor, das eine variable Anzahl von unposierten RGB-Ansichten in K latente Tokens komprimiert – einen globalen Zustand – und orientierte 3D-Oberflächenpunkte decodiert, indem diese unabhängig voneinander durch Flow Matching vom Rauschen auf die Oberfläche transportiert werden. Dadurch wird die Ausgabe von einem festen Gitter oder Token-Budget befreit: Dasselbe Latent liefert in einem einzigen Vorwärtsdurchlauf von einigen tausend bis zu einer Million Punkte. Um die lokalen Inkonsistenzen zu unterdrücken, die der unabhängigen punktweisen Decodierung innewohnen, führt ein Guidance-Term zur Inferenzzeit nahegelegene Punkte durch Injektion eines photometrischen Gradienten während der ODE-Integration zusammen. Surflo erreicht oder übertrifft Feed-Forward-Baselines in Oberflächenmetriken, ist eine Größenordnung schneller als optimierungsbasierte Methoden, die hunderte Ansichten benötigen, und ist der einzige Feed-Forward-Ansatz, der ein globales Latent mit Decodierung in beliebiger Auflösung kombiniert.

English

Geometry is invariant to viewpoint, which makes any collection of images a redundant encoding of a single 3D state. Existing feed-forward reconstruction models fail to exploit this: per-view methods emit overlapping, unaligned pointmaps that grow linearly with input count, while global-latent methods commit to a fixed, low-resolution output. We introduce Surflo, which compresses a variable number of unposed RGB views into K latent tokens-one global state-and decodes oriented 3D surface points by independently transporting them from noise onto the surface via flow matching. This frees the output from any fixed grid or token budget: the same latent yields from a few thousand to a million points in a single forward pass. To suppress the local inconsistencies inherent to independent per-point decoding, an inference-time guidance term correlates nearby points by injecting a photometric gradient during ODE integration. Surflo matches or surpasses feed-forward baselines on surface metrics, runs an order of magnitude faster than optimization-based methods that require hundreds of views, and is the only feed-forward approach to combine a global latent with arbitrary-resolution decoding.