Hyper-VolTran: Generación Rápida y Generalizable de Estructuras 3D a partir de una Imagen en una Sola Toma mediante Hiperredes

Resumen

Resolver la conversión de imagen a 3D a partir de una sola vista es un problema mal planteado, y los métodos actuales de reconstrucción neuronal que lo abordan mediante modelos de difusión aún dependen de la optimización específica de la escena, lo que limita su capacidad de generalización. Para superar las limitaciones de los enfoques existentes en cuanto a generalización y consistencia, introducimos una novedosa técnica de renderizado neuronal. Nuestro enfoque emplea la función de distancia con signo como representación de la superficie e incorpora conocimientos generalizables a través de volúmenes de codificación geométrica e HiperRedes. Específicamente, nuestro método construye volúmenes de codificación neuronal a partir de entradas de múltiples vistas generadas. Ajustamos los pesos de la red de SDF condicionada a una imagen de entrada en tiempo de prueba para permitir la adaptación del modelo a nuevas escenas de manera directa mediante HiperRedes. Para mitigar los artefactos derivados de las vistas sintetizadas, proponemos el uso de un módulo transformador de volúmenes para mejorar la agregación de características de imagen en lugar de procesar cada punto de vista por separado. A través de nuestro método propuesto, denominado Hyper-VolTran, evitamos el cuello de botella de la optimización específica de la escena y mantenemos la consistencia entre las imágenes generadas desde múltiples puntos de vista. Nuestros experimentos muestran las ventajas de nuestro enfoque propuesto con resultados consistentes y generación rápida.

English

Solving image-to-3D from a single view is an ill-posed problem, and current neural reconstruction methods addressing it through diffusion models still rely on scene-specific optimization, constraining their generalization capability. To overcome the limitations of existing approaches regarding generalization and consistency, we introduce a novel neural rendering technique. Our approach employs the signed distance function as the surface representation and incorporates generalizable priors through geometry-encoding volumes and HyperNetworks. Specifically, our method builds neural encoding volumes from generated multi-view inputs. We adjust the weights of the SDF network conditioned on an input image at test-time to allow model adaptation to novel scenes in a feed-forward manner via HyperNetworks. To mitigate artifacts derived from the synthesized views, we propose the use of a volume transformer module to improve the aggregation of image features instead of processing each viewpoint separately. Through our proposed method, dubbed as Hyper-VolTran, we avoid the bottleneck of scene-specific optimization and maintain consistency across the images generated from multiple viewpoints. Our experiments show the advantages of our proposed approach with consistent results and rapid generation.

Hyper-VolTran: Generación Rápida y Generalizable de Estructuras 3D a partir de una Imagen en una Sola Toma mediante Hiperredes

Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object Structure via HyperNetworks

Resumen

Support