EscherNet: Генеративная модель для масштабируемого синтеза видов
EscherNet: A Generative Model for Scalable View Synthesis
February 6, 2024
Авторы: Xin Kong, Shikun Liu, Xiaoyang Lyu, Marwan Taher, Xiaojuan Qi, Andrew J. Davison
cs.AI
Аннотация
Мы представляем EscherNet — многовидовую условную диффузионную модель для синтеза видов. EscherNet изучает неявные и генеративные 3D-представления в сочетании со специализированным позиционным кодированием камеры, что позволяет точно и непрерывно управлять относительным преобразованием камеры между произвольным количеством опорных и целевых видов. EscherNet предлагает исключительную универсальность, гибкость и масштабируемость в синтезе видов — она способна генерировать более 100 согласованных целевых видов одновременно на одной потребительской GPU, несмотря на обучение с фиксированным количеством из 3 опорных видов в 3 целевых. В результате EscherNet не только решает задачу синтеза новых видов с нулевым обучением, но и естественным образом объединяет одно- и многокадровую 3D-реконструкцию, интегрируя эти разнообразные задачи в единую связную структуру. Наши обширные эксперименты демонстрируют, что EscherNet достигает передовых результатов в нескольких бенчмарках, даже в сравнении с методами, специально разработанными для каждой отдельной задачи. Эта замечательная универсальность открывает новые направления для проектирования масштабируемых нейронных архитектур в области 3D-зрения. Страница проекта: https://kxhit.github.io/EscherNet.
English
We introduce EscherNet, a multi-view conditioned diffusion model for view
synthesis. EscherNet learns implicit and generative 3D representations coupled
with a specialised camera positional encoding, allowing precise and continuous
relative control of the camera transformation between an arbitrary number of
reference and target views. EscherNet offers exceptional generality,
flexibility, and scalability in view synthesis -- it can generate more than 100
consistent target views simultaneously on a single consumer-grade GPU, despite
being trained with a fixed number of 3 reference views to 3 target views. As a
result, EscherNet not only addresses zero-shot novel view synthesis, but also
naturally unifies single- and multi-image 3D reconstruction, combining these
diverse tasks into a single, cohesive framework. Our extensive experiments
demonstrate that EscherNet achieves state-of-the-art performance in multiple
benchmarks, even when compared to methods specifically tailored for each
individual problem. This remarkable versatility opens up new directions for
designing scalable neural architectures for 3D vision. Project page:
https://kxhit.github.io/EscherNet.