GenRecon: Unindo Priores Generativos para Reconstrução 3D de Cena a Partir de Múltiplas Vistas

Resumo

Apresentamos uma nova abordagem para a reconstrução de cenas 3D de alta fidelidade a partir de imagens RGB multivistas, que integra estreitamente a reconstrução com um forte prior generativo 3D. Enquadramos a reconstrução de cenas como geração 3D condicional sobre um conjunto de blocos sobrepostos e espacialmente localizados que, juntos, recobrem a cena, escalando a geração para grandes extensões de cena. Crucialmente, herdamos a fidelidade e a completude dos modelos generativos de forma de última geração — usando o Trellis.2 como exemplo — que generalizamos para o nível da cena. Para isso, propomos um mecanismo de condicionamento baseado em projeção que eleva as características das imagens multivistas posicionadas para uma representação 3D coerente, alinhada ao modelo generativo, independente da ordem das vistas e ancorada espacialmente na cena, resultando em geometria gerada de alta fidelidade e consistente entre múltiplas vistas. Isso permite elevar o forte prior de nível de objeto do Trellis.2 para a geração em escala de cena e multivistas, produzindo reconstruções fiéis e editáveis de malhas PBR de ambientes internos. Como resultado, obtemos resultados de alta fidelidade que superam em 16% os métodos de reconstrução de ponta.

English

We introduce a new approach to high-fidelity 3D scene reconstruction from multi-view RGB images that tightly couples reconstruction with a strong generative 3D prior. We cast scene reconstruction as conditional 3D generation over a set of spatially-localized, overlapping chunks that together tile the scene, scaling generation to large scene extents. Crucially, we inherit the fidelity and completeness of state-of-the-art generative shape models -- we use Trellis.2 as an example -- which we generalize to the scene level. To this end, we propose a projection-based conditioning mechanism that lifts posed multi-view image features into a coherent 3D representation aligned with the generative model, independent of view ordering and spatially anchored to the scene, yielding high-fidelity, multi-view consistent generated geometry. This enables lifting the strong object-level prior of Trellis.2 to multi-view, scene-scale generation, producing faithful, editable PBR mesh reconstructions of indoor environments. As a result, we obtain high-fidelity results that outperform cutting-edge reconstruction methods by 16%.