Surflo: Modelo de Flujo de Superficie 3D Consistente con Estado Global

Resumen

La geometría es invariante al punto de vista, lo que convierte cualquier conjunto de imágenes en una codificación redundante de un único estado 3D. Los modelos de reconstrucción feed-forward existentes no logran aprovechar esto: los métodos por vista generan mapas de puntos superpuestos y desalineados que crecen linealmente con el número de entradas, mientras que los métodos de latente global se comprometen con una salida fija y de baja resolución. Presentamos Surflo, que comprime un número variable de vistas RGB sin posar en K tokens latentes —un estado global— y decodifica puntos de superficie 3D orientados transportándolos independientemente desde el ruido hasta la superficie mediante flow matching. Esto libera la salida de cualquier rejilla fija o presupuesto de tokens: el mismo latente produce desde unos pocos miles hasta un millón de puntos en una sola pasada forward. Para suprimir las inconsistencias locales inherentes a la decodificación independiente punto por punto, un término de guía en tiempo de inferencia correlaciona puntos cercanos inyectando un gradiente fotométrico durante la integración de la EDO. Surflo iguala o supera a las líneas base feed-forward en métricas de superficie, se ejecuta un orden de magnitud más rápido que los métodos basados en optimización que requieren cientos de vistas, y es el único enfoque feed-forward que combina un latente global con decodificación de resolución arbitraria.

English

Geometry is invariant to viewpoint, which makes any collection of images a redundant encoding of a single 3D state. Existing feed-forward reconstruction models fail to exploit this: per-view methods emit overlapping, unaligned pointmaps that grow linearly with input count, while global-latent methods commit to a fixed, low-resolution output. We introduce Surflo, which compresses a variable number of unposed RGB views into K latent tokens-one global state-and decodes oriented 3D surface points by independently transporting them from noise onto the surface via flow matching. This frees the output from any fixed grid or token budget: the same latent yields from a few thousand to a million points in a single forward pass. To suppress the local inconsistencies inherent to independent per-point decoding, an inference-time guidance term correlates nearby points by injecting a photometric gradient during ODE integration. Surflo matches or surpasses feed-forward baselines on surface metrics, runs an order of magnitude faster than optimization-based methods that require hundreds of views, and is the only feed-forward approach to combine a global latent with arbitrary-resolution decoding.