EscherNet: Ein generatives Modell für skalierbare Ansichtssynthese
EscherNet: A Generative Model for Scalable View Synthesis
February 6, 2024
Autoren: Xin Kong, Shikun Liu, Xiaoyang Lyu, Marwan Taher, Xiaojuan Qi, Andrew J. Davison
cs.AI
Zusammenfassung
Wir stellen EscherNet vor, ein multi-view-bedingtes Diffusionsmodell für die Ansichtssynthese. EscherNet lernt implizite und generative 3D-Repräsentationen, gekoppelt mit einer spezialisierten Kamerapositionskodierung, die eine präzise und kontinuierliche relative Steuerung der Kameratransformation zwischen einer beliebigen Anzahl von Referenz- und Zielansichten ermöglicht. EscherNet bietet außergewöhnliche Allgemeingültigkeit, Flexibilität und Skalierbarkeit in der Ansichtssynthese – es kann mehr als 100 konsistente Zielansichten gleichzeitig auf einer einzigen Consumer-GPU generieren, obwohl es mit einer festen Anzahl von 3 Referenzansichten zu 3 Zielansichten trainiert wurde. Dadurch adressiert EscherNet nicht nur die Zero-Shot-Novel-View-Synthese, sondern vereint auch natürlich die Einzel- und Mehrbild-3D-Rekonstruktion, indem es diese vielfältigen Aufgaben in einem einzigen, kohärenten Framework kombiniert. Unsere umfangreichen Experimente zeigen, dass EscherNet in mehreren Benchmarks state-of-the-art Leistungen erzielt, selbst im Vergleich zu Methoden, die speziell für jedes einzelne Problem entwickelt wurden. Diese bemerkenswerte Vielseitigkeit eröffnet neue Richtungen für die Gestaltung skalierbarer neuronaler Architekturen für die 3D-Vision. Projektseite: https://kxhit.github.io/EscherNet.
English
We introduce EscherNet, a multi-view conditioned diffusion model for view
synthesis. EscherNet learns implicit and generative 3D representations coupled
with a specialised camera positional encoding, allowing precise and continuous
relative control of the camera transformation between an arbitrary number of
reference and target views. EscherNet offers exceptional generality,
flexibility, and scalability in view synthesis -- it can generate more than 100
consistent target views simultaneously on a single consumer-grade GPU, despite
being trained with a fixed number of 3 reference views to 3 target views. As a
result, EscherNet not only addresses zero-shot novel view synthesis, but also
naturally unifies single- and multi-image 3D reconstruction, combining these
diverse tasks into a single, cohesive framework. Our extensive experiments
demonstrate that EscherNet achieves state-of-the-art performance in multiple
benchmarks, even when compared to methods specifically tailored for each
individual problem. This remarkable versatility opens up new directions for
designing scalable neural architectures for 3D vision. Project page:
https://kxhit.github.io/EscherNet.