Surflo : modèle cohérent d'écoulement de surface 3D avec état global

Résumé

La géométrie est invariante par rapport au point de vue, ce qui fait que toute collection d'images constitue un codage redondant d'un unique état 3D. Les modèles de reconstruction feed-forward existants ne parviennent pas à exploiter cela : les méthodes par vue émettent des cartes de points qui se chevauchent et ne sont pas alignées, dont la taille croît linéairement avec le nombre d'entrées, tandis que les méthodes à latent global s'engagent sur une sortie fixe et de basse résolution. Nous introduisons Surflo, qui compresse un nombre variable de vues RVB non positionnées en K tokens latents — un état global — et décode des points de surface 3D orientés en les transportant indépendamment du bruit vers la surface via un flow matching. Cela libère la sortie de toute grille fixe ou budget de tokens : le même latent produit de quelques milliers à un million de points en une seule passe avant. Pour supprimer les incohérences locales inhérentes au décodage indépendant point par point, un terme de guidance au moment de l'inférence corrèle les points proches en injectant un gradient photométrique pendant l'intégration ODE. Surflo atteint ou dépasse les références feed-forward sur les métriques de surface, est d'un ordre de grandeur plus rapide que les méthodes basées sur l'optimisation qui nécessitent des centaines de vues, et est la seule approche feed-forward à combiner un latent global avec un décodage à résolution arbitraire.

English

Geometry is invariant to viewpoint, which makes any collection of images a redundant encoding of a single 3D state. Existing feed-forward reconstruction models fail to exploit this: per-view methods emit overlapping, unaligned pointmaps that grow linearly with input count, while global-latent methods commit to a fixed, low-resolution output. We introduce Surflo, which compresses a variable number of unposed RGB views into K latent tokens-one global state-and decodes oriented 3D surface points by independently transporting them from noise onto the surface via flow matching. This frees the output from any fixed grid or token budget: the same latent yields from a few thousand to a million points in a single forward pass. To suppress the local inconsistencies inherent to independent per-point decoding, an inference-time guidance term correlates nearby points by injecting a photometric gradient during ODE integration. Surflo matches or surpasses feed-forward baselines on surface metrics, runs an order of magnitude faster than optimization-based methods that require hundreds of views, and is the only feed-forward approach to combine a global latent with arbitrary-resolution decoding.