Hyper-VolTran: Generación Rápida y Generalizable de Estructuras 3D a partir de una Imagen en una Sola Toma mediante Hiperredes
Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object Structure via HyperNetworks
December 24, 2023
Autores: Christian Simon, Sen He, Juan-Manuel Perez-Rua, Frost Xu, Amine Benhalloum, Tao Xiang
cs.AI
Resumen
Resolver la conversión de imagen a 3D a partir de una sola vista es un problema mal planteado, y los métodos actuales de reconstrucción neuronal que lo abordan mediante modelos de difusión aún dependen de la optimización específica de la escena, lo que limita su capacidad de generalización. Para superar las limitaciones de los enfoques existentes en cuanto a generalización y consistencia, introducimos una novedosa técnica de renderizado neuronal. Nuestro enfoque emplea la función de distancia con signo como representación de la superficie e incorpora conocimientos generalizables a través de volúmenes de codificación geométrica e HiperRedes. Específicamente, nuestro método construye volúmenes de codificación neuronal a partir de entradas de múltiples vistas generadas. Ajustamos los pesos de la red de SDF condicionada a una imagen de entrada en tiempo de prueba para permitir la adaptación del modelo a nuevas escenas de manera directa mediante HiperRedes. Para mitigar los artefactos derivados de las vistas sintetizadas, proponemos el uso de un módulo transformador de volúmenes para mejorar la agregación de características de imagen en lugar de procesar cada punto de vista por separado. A través de nuestro método propuesto, denominado Hyper-VolTran, evitamos el cuello de botella de la optimización específica de la escena y mantenemos la consistencia entre las imágenes generadas desde múltiples puntos de vista. Nuestros experimentos muestran las ventajas de nuestro enfoque propuesto con resultados consistentes y generación rápida.
English
Solving image-to-3D from a single view is an ill-posed problem, and current
neural reconstruction methods addressing it through diffusion models still rely
on scene-specific optimization, constraining their generalization capability.
To overcome the limitations of existing approaches regarding generalization and
consistency, we introduce a novel neural rendering technique. Our approach
employs the signed distance function as the surface representation and
incorporates generalizable priors through geometry-encoding volumes and
HyperNetworks. Specifically, our method builds neural encoding volumes from
generated multi-view inputs. We adjust the weights of the SDF network
conditioned on an input image at test-time to allow model adaptation to novel
scenes in a feed-forward manner via HyperNetworks. To mitigate artifacts
derived from the synthesized views, we propose the use of a volume transformer
module to improve the aggregation of image features instead of processing each
viewpoint separately. Through our proposed method, dubbed as Hyper-VolTran, we
avoid the bottleneck of scene-specific optimization and maintain consistency
across the images generated from multiple viewpoints. Our experiments show the
advantages of our proposed approach with consistent results and rapid
generation.