EscherNet: Een generatief model voor schaalbare viewsynthese
EscherNet: A Generative Model for Scalable View Synthesis
February 6, 2024
Auteurs: Xin Kong, Shikun Liu, Xiaoyang Lyu, Marwan Taher, Xiaojuan Qi, Andrew J. Davison
cs.AI
Samenvatting
We introduceren EscherNet, een multi-view conditioned diffusiemodel voor viewsynthese. EscherNet leert impliciete en generatieve 3D-representaties, gekoppeld aan een gespecialiseerde camera positionele codering, waardoor precieze en continue relatieve controle van de cameratransformatie tussen een willekeurig aantal referentie- en doelbeelden mogelijk is. EscherNet biedt uitzonderlijke algemeenheid, flexibiliteit en schaalbaarheid in viewsynthese – het kan meer dan 100 consistente doelbeelden tegelijkertijd genereren op een enkele consumenten-GPU, ondanks dat het is getraind met een vast aantal van 3 referentiebeelden naar 3 doelbeelden. Als gevolg hiervan adresseert EscherNet niet alleen zero-shot novel view synthesis, maar verenigt het ook natuurlijk single- en multi-image 3D-reconstructie, waarbij deze diverse taken worden gecombineerd in een enkel, samenhangend framework. Onze uitgebreide experimenten tonen aan dat EscherNet state-of-the-art prestaties bereikt in meerdere benchmarks, zelfs in vergelijking met methoden die specifiek zijn afgestemd op elk individueel probleem. Deze opmerkelijke veelzijdigheid opent nieuwe richtingen voor het ontwerpen van schaalbare neurale architecturen voor 3D-visie. Projectpagina: https://kxhit.github.io/EscherNet.
English
We introduce EscherNet, a multi-view conditioned diffusion model for view
synthesis. EscherNet learns implicit and generative 3D representations coupled
with a specialised camera positional encoding, allowing precise and continuous
relative control of the camera transformation between an arbitrary number of
reference and target views. EscherNet offers exceptional generality,
flexibility, and scalability in view synthesis -- it can generate more than 100
consistent target views simultaneously on a single consumer-grade GPU, despite
being trained with a fixed number of 3 reference views to 3 target views. As a
result, EscherNet not only addresses zero-shot novel view synthesis, but also
naturally unifies single- and multi-image 3D reconstruction, combining these
diverse tasks into a single, cohesive framework. Our extensive experiments
demonstrate that EscherNet achieves state-of-the-art performance in multiple
benchmarks, even when compared to methods specifically tailored for each
individual problem. This remarkable versatility opens up new directions for
designing scalable neural architectures for 3D vision. Project page:
https://kxhit.github.io/EscherNet.