Hyper-VolTran: Geração Rápida e Generalizável de Estruturas 3D a partir de Imagens Únicas via Hiperredes
Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object Structure via HyperNetworks
December 24, 2023
Autores: Christian Simon, Sen He, Juan-Manuel Perez-Rua, Frost Xu, Amine Benhalloum, Tao Xiang
cs.AI
Resumo
Resolver a conversão de imagem para 3D a partir de uma única visão é um problema mal-posto, e os métodos atuais de reconstrução neural que abordam isso através de modelos de difusão ainda dependem de otimização específica para a cena, limitando sua capacidade de generalização. Para superar as limitações das abordagens existentes em relação à generalização e consistência, introduzimos uma nova técnica de renderização neural. Nossa abordagem emprega a função de distância com sinal como representação da superfície e incorpora prioridades generalizáveis por meio de volumes de codificação geométrica e HyperNetworks. Especificamente, nosso método constrói volumes de codificação neural a partir de entradas geradas de múltiplas visões. Ajustamos os pesos da rede SDF condicionados a uma imagem de entrada no momento do teste para permitir a adaptação do modelo a novas cenas de maneira direta via HyperNetworks. Para mitigar artefatos derivados das visões sintetizadas, propomos o uso de um módulo de transformador de volume para melhorar a agregação de características da imagem, em vez de processar cada ponto de vista separadamente. Através do nosso método proposto, denominado Hyper-VolTran, evitamos o gargalo da otimização específica para a cena e mantemos a consistência entre as imagens geradas a partir de múltiplos pontos de vista. Nossos experimentos mostram as vantagens da nossa abordagem proposta, com resultados consistentes e geração rápida.
English
Solving image-to-3D from a single view is an ill-posed problem, and current
neural reconstruction methods addressing it through diffusion models still rely
on scene-specific optimization, constraining their generalization capability.
To overcome the limitations of existing approaches regarding generalization and
consistency, we introduce a novel neural rendering technique. Our approach
employs the signed distance function as the surface representation and
incorporates generalizable priors through geometry-encoding volumes and
HyperNetworks. Specifically, our method builds neural encoding volumes from
generated multi-view inputs. We adjust the weights of the SDF network
conditioned on an input image at test-time to allow model adaptation to novel
scenes in a feed-forward manner via HyperNetworks. To mitigate artifacts
derived from the synthesized views, we propose the use of a volume transformer
module to improve the aggregation of image features instead of processing each
viewpoint separately. Through our proposed method, dubbed as Hyper-VolTran, we
avoid the bottleneck of scene-specific optimization and maintain consistency
across the images generated from multiple viewpoints. Our experiments show the
advantages of our proposed approach with consistent results and rapid
generation.