Surflo: согласованная трехмерная модель поверхностного потока с глобальным состоянием

Аннотация

Геометрия инвариантна к точке обзора, что делает любое множество изображений избыточным кодированием единого трехмерного состояния. Существующие модели реконструкции прямого распространения не используют это преимущество: покадровые методы выдают перекрывающиеся, невыровненные карты точек, количество которых растет линейно с числом входных данных, а методы с глобальным латентным представлением фиксируют выходные данные с низким разрешением. Мы представляем Surflo, который сжимает переменное количество RGB-изображений без позиционирования в K латентных токенов — одно глобальное состояние — и декодирует ориентированные трехмерные точки поверхности, независимо перенося их из шума на поверхность с помощью согласования потоков. Это освобождает выходные данные от фиксированной сетки или лимита токенов: одно и то же латентное представление дает от нескольких тысяч до миллиона точек за один прямой проход. Для подавления локальных несоответствий, присущих независимому попиксельному декодированию, во время инференса используется направляющий термин, коррелирующий близлежащие точки путем внедрения фотометрического градиента в процессе интегрирования ОДУ. Surflo сравнивается с эталонными моделями прямого распространения по метрикам поверхности, превосходит их или не уступает им, работает на порядок быстрее методов, основанных на оптимизации и требующих сотен видов, и является единственным подходом прямого распространения, сочетающим глобальное латентное представление с декодированием произвольного разрешения.

English

Geometry is invariant to viewpoint, which makes any collection of images a redundant encoding of a single 3D state. Existing feed-forward reconstruction models fail to exploit this: per-view methods emit overlapping, unaligned pointmaps that grow linearly with input count, while global-latent methods commit to a fixed, low-resolution output. We introduce Surflo, which compresses a variable number of unposed RGB views into K latent tokens-one global state-and decodes oriented 3D surface points by independently transporting them from noise onto the surface via flow matching. This frees the output from any fixed grid or token budget: the same latent yields from a few thousand to a million points in a single forward pass. To suppress the local inconsistencies inherent to independent per-point decoding, an inference-time guidance term correlates nearby points by injecting a photometric gradient during ODE integration. Surflo matches or surpasses feed-forward baselines on surface metrics, runs an order of magnitude faster than optimization-based methods that require hundreds of views, and is the only feed-forward approach to combine a global latent with arbitrary-resolution decoding.