EscherNet: Un Modello Generativo per la Sintesi Scalabile di Viste
EscherNet: A Generative Model for Scalable View Synthesis
February 6, 2024
Autori: Xin Kong, Shikun Liu, Xiaoyang Lyu, Marwan Taher, Xiaojuan Qi, Andrew J. Davison
cs.AI
Abstract
Presentiamo EscherNet, un modello di diffusione condizionato a più viste per la sintesi di prospettive. EscherNet apprende rappresentazioni 3D implicite e generative, accoppiate a una codifica posizionale specializzata della telecamera, consentendo un controllo preciso e continuo della trasformazione della telecamera tra un numero arbitrario di viste di riferimento e target. EscherNet offre un'eccezionale generalità, flessibilità e scalabilità nella sintesi di prospettive: può generare simultaneamente più di 100 viste target coerenti su una singola GPU di livello consumer, nonostante sia stato addestrato con un numero fisso di 3 viste di riferimento e 3 viste target. Di conseguenza, EscherNet non solo affronta la sintesi di nuove prospettive in modalità zero-shot, ma unifica naturalmente anche la ricostruzione 3D da singola e multipla immagine, combinando questi compiti diversi in un unico framework coerente. I nostri ampi esperimenti dimostrano che EscherNet raggiunge prestazioni all'avanguardia in molteplici benchmark, anche rispetto a metodi specificamente progettati per ciascun problema individuale. Questa notevole versatilità apre nuove direzioni per la progettazione di architetture neurali scalabili per la visione 3D. Pagina del progetto: https://kxhit.github.io/EscherNet.
English
We introduce EscherNet, a multi-view conditioned diffusion model for view
synthesis. EscherNet learns implicit and generative 3D representations coupled
with a specialised camera positional encoding, allowing precise and continuous
relative control of the camera transformation between an arbitrary number of
reference and target views. EscherNet offers exceptional generality,
flexibility, and scalability in view synthesis -- it can generate more than 100
consistent target views simultaneously on a single consumer-grade GPU, despite
being trained with a fixed number of 3 reference views to 3 target views. As a
result, EscherNet not only addresses zero-shot novel view synthesis, but also
naturally unifies single- and multi-image 3D reconstruction, combining these
diverse tasks into a single, cohesive framework. Our extensive experiments
demonstrate that EscherNet achieves state-of-the-art performance in multiple
benchmarks, even when compared to methods specifically tailored for each
individual problem. This remarkable versatility opens up new directions for
designing scalable neural architectures for 3D vision. Project page:
https://kxhit.github.io/EscherNet.