EscherNet : Un modèle génératif pour la synthèse d’images à grande échelle
EscherNet: A Generative Model for Scalable View Synthesis
February 6, 2024
Auteurs: Xin Kong, Shikun Liu, Xiaoyang Lyu, Marwan Taher, Xiaojuan Qi, Andrew J. Davison
cs.AI
Résumé
Nous présentons EscherNet, un modèle de diffusion conditionné multi-vues pour la synthèse de vues. EscherNet apprend des représentations 3D implicites et génératives couplées à un encodage spécialisé de la position de la caméra, permettant un contrôle précis et continu de la transformation de la caméra entre un nombre arbitraire de vues de référence et de vues cibles. EscherNet offre une généralité, une flexibilité et une scalabilité exceptionnelles dans la synthèse de vues — il peut générer simultanément plus de 100 vues cibles cohérentes sur un seul GPU de qualité grand public, bien qu'il ait été entraîné avec un nombre fixe de 3 vues de référence vers 3 vues cibles. En conséquence, EscherNet aborde non seulement la synthèse de nouvelles vues en zéro-shot, mais unifie également naturellement la reconstruction 3D à partir d'une seule image et de plusieurs images, combinant ces tâches diverses en un cadre unique et cohérent. Nos expériences approfondies démontrent qu'EscherNet atteint des performances de pointe dans plusieurs benchmarks, même comparé à des méthodes spécifiquement conçues pour chaque problème individuel. Cette polyvalence remarquable ouvre de nouvelles directions pour la conception d'architectures neuronales scalables pour la vision 3D. Page du projet : https://kxhit.github.io/EscherNet.
English
We introduce EscherNet, a multi-view conditioned diffusion model for view
synthesis. EscherNet learns implicit and generative 3D representations coupled
with a specialised camera positional encoding, allowing precise and continuous
relative control of the camera transformation between an arbitrary number of
reference and target views. EscherNet offers exceptional generality,
flexibility, and scalability in view synthesis -- it can generate more than 100
consistent target views simultaneously on a single consumer-grade GPU, despite
being trained with a fixed number of 3 reference views to 3 target views. As a
result, EscherNet not only addresses zero-shot novel view synthesis, but also
naturally unifies single- and multi-image 3D reconstruction, combining these
diverse tasks into a single, cohesive framework. Our extensive experiments
demonstrate that EscherNet achieves state-of-the-art performance in multiple
benchmarks, even when compared to methods specifically tailored for each
individual problem. This remarkable versatility opens up new directions for
designing scalable neural architectures for 3D vision. Project page:
https://kxhit.github.io/EscherNet.