Surflo: Modelo de Fluxo de Superfície 3D Consistente com Estado Global

Resumo

A geometria é invariante em relação ao ponto de vista, o que faz de qualquer coleção de imagens uma codificação redundante de um único estado 3D. Os modelos existentes de reconstrução feed-forward não exploram isso: métodos por vista emitem mapas de pontos sobrepostos e desalinhados que crescem linearmente com o número de entradas, enquanto métodos de latente global se comprometem com uma saída fixa e de baixa resolução. Apresentamos o Surflo, que comprime um número variável de vistas RGB não posicionadas em K tokens latentes — um único estado global — e decodifica pontos de superfície 3D orientados, transportando-os independentemente do ruído para a superfície via correspondência de fluxo (flow matching). Isso libera a saída de qualquer grade fixa ou orçamento de tokens: o mesmo latente produz desde alguns milhares até um milhão de pontos em uma única passagem direta. Para suprimir as inconsistências locais inerentes à decodificação independente ponto a ponto, um termo de orientação em tempo de inferência correlaciona pontos próximos injetando um gradiente fotométrico durante a integração da EDO. O Surflo iguala ou supera as linhas de base feed-forward em métricas de superfície, é uma ordem de grandeza mais rápido que métodos baseados em otimização que exigem centenas de vistas, e é a única abordagem feed-forward que combina um latente global com decodificação de resolução arbitrária.

English

Geometry is invariant to viewpoint, which makes any collection of images a redundant encoding of a single 3D state. Existing feed-forward reconstruction models fail to exploit this: per-view methods emit overlapping, unaligned pointmaps that grow linearly with input count, while global-latent methods commit to a fixed, low-resolution output. We introduce Surflo, which compresses a variable number of unposed RGB views into K latent tokens-one global state-and decodes oriented 3D surface points by independently transporting them from noise onto the surface via flow matching. This frees the output from any fixed grid or token budget: the same latent yields from a few thousand to a million points in a single forward pass. To suppress the local inconsistencies inherent to independent per-point decoding, an inference-time guidance term correlates nearby points by injecting a photometric gradient during ODE integration. Surflo matches or surpasses feed-forward baselines on surface metrics, runs an order of magnitude faster than optimization-based methods that require hundreds of views, and is the only feed-forward approach to combine a global latent with arbitrary-resolution decoding.