EscherNet: Um Modelo Generativo para Síntese Escalável de Visões
EscherNet: A Generative Model for Scalable View Synthesis
February 6, 2024
Autores: Xin Kong, Shikun Liu, Xiaoyang Lyu, Marwan Taher, Xiaojuan Qi, Andrew J. Davison
cs.AI
Resumo
Apresentamos o EscherNet, um modelo de difusão condicionado por múltiplas visões para síntese de vistas. O EscherNet aprende representações 3D implícitas e generativas, acopladas a uma codificação posicional de câmera especializada, permitindo um controle preciso e contínuo da transformação da câmera entre um número arbitrário de visões de referência e visões alvo. O EscherNet oferece excepcional generalidade, flexibilidade e escalabilidade na síntese de vistas — ele pode gerar mais de 100 visões alvo consistentes simultaneamente em uma única GPU de nível consumidor, apesar de ter sido treinado com um número fixo de 3 visões de referência para 3 visões alvo. Como resultado, o EscherNet não apenas aborda a síntese de novas visões em cenários zero-shot, mas também unifica naturalmente a reconstrução 3D com base em uma única imagem e em múltiplas imagens, combinando essas tarefas diversas em um único framework coeso. Nossos extensos experimentos demonstram que o EscherNet alcança desempenho de ponta em múltiplos benchmarks, mesmo quando comparado a métodos especificamente projetados para cada problema individual. Essa notável versatilidade abre novas direções para o projeto de arquiteturas neurais escaláveis para visão 3D. Página do projeto: https://kxhit.github.io/EscherNet.
English
We introduce EscherNet, a multi-view conditioned diffusion model for view
synthesis. EscherNet learns implicit and generative 3D representations coupled
with a specialised camera positional encoding, allowing precise and continuous
relative control of the camera transformation between an arbitrary number of
reference and target views. EscherNet offers exceptional generality,
flexibility, and scalability in view synthesis -- it can generate more than 100
consistent target views simultaneously on a single consumer-grade GPU, despite
being trained with a fixed number of 3 reference views to 3 target views. As a
result, EscherNet not only addresses zero-shot novel view synthesis, but also
naturally unifies single- and multi-image 3D reconstruction, combining these
diverse tasks into a single, cohesive framework. Our extensive experiments
demonstrate that EscherNet achieves state-of-the-art performance in multiple
benchmarks, even when compared to methods specifically tailored for each
individual problem. This remarkable versatility opens up new directions for
designing scalable neural architectures for 3D vision. Project page:
https://kxhit.github.io/EscherNet.