Hyper-VolTran: Geração Rápida e Generalizável de Estruturas 3D a partir de Imagens Únicas via Hiperredes

Resumo

Resolver a conversão de imagem para 3D a partir de uma única visão é um problema mal-posto, e os métodos atuais de reconstrução neural que abordam isso através de modelos de difusão ainda dependem de otimização específica para a cena, limitando sua capacidade de generalização. Para superar as limitações das abordagens existentes em relação à generalização e consistência, introduzimos uma nova técnica de renderização neural. Nossa abordagem emprega a função de distância com sinal como representação da superfície e incorpora prioridades generalizáveis por meio de volumes de codificação geométrica e HyperNetworks. Especificamente, nosso método constrói volumes de codificação neural a partir de entradas geradas de múltiplas visões. Ajustamos os pesos da rede SDF condicionados a uma imagem de entrada no momento do teste para permitir a adaptação do modelo a novas cenas de maneira direta via HyperNetworks. Para mitigar artefatos derivados das visões sintetizadas, propomos o uso de um módulo de transformador de volume para melhorar a agregação de características da imagem, em vez de processar cada ponto de vista separadamente. Através do nosso método proposto, denominado Hyper-VolTran, evitamos o gargalo da otimização específica para a cena e mantemos a consistência entre as imagens geradas a partir de múltiplos pontos de vista. Nossos experimentos mostram as vantagens da nossa abordagem proposta, com resultados consistentes e geração rápida.

English

Solving image-to-3D from a single view is an ill-posed problem, and current neural reconstruction methods addressing it through diffusion models still rely on scene-specific optimization, constraining their generalization capability. To overcome the limitations of existing approaches regarding generalization and consistency, we introduce a novel neural rendering technique. Our approach employs the signed distance function as the surface representation and incorporates generalizable priors through geometry-encoding volumes and HyperNetworks. Specifically, our method builds neural encoding volumes from generated multi-view inputs. We adjust the weights of the SDF network conditioned on an input image at test-time to allow model adaptation to novel scenes in a feed-forward manner via HyperNetworks. To mitigate artifacts derived from the synthesized views, we propose the use of a volume transformer module to improve the aggregation of image features instead of processing each viewpoint separately. Through our proposed method, dubbed as Hyper-VolTran, we avoid the bottleneck of scene-specific optimization and maintain consistency across the images generated from multiple viewpoints. Our experiments show the advantages of our proposed approach with consistent results and rapid generation.

Hyper-VolTran: Geração Rápida e Generalizável de Estruturas 3D a partir de Imagens Únicas via Hiperredes

Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object Structure via HyperNetworks

Resumo

Support