EscherNet: Un modelo generativo para la síntesis escalable de vistas
EscherNet: A Generative Model for Scalable View Synthesis
February 6, 2024
Autores: Xin Kong, Shikun Liu, Xiaoyang Lyu, Marwan Taher, Xiaojuan Qi, Andrew J. Davison
cs.AI
Resumen
Presentamos EscherNet, un modelo de difusión condicionado por múltiples vistas para la síntesis de vistas. EscherNet aprende representaciones implícitas y generativas en 3D, junto con una codificación especializada de la posición de la cámara, lo que permite un control preciso y continuo de la transformación de la cámara entre un número arbitrario de vistas de referencia y vistas objetivo. EscherNet ofrece una excepcional generalidad, flexibilidad y escalabilidad en la síntesis de vistas: puede generar más de 100 vistas objetivo consistentes simultáneamente en una sola GPU de consumo, a pesar de haber sido entrenado con un número fijo de 3 vistas de referencia a 3 vistas objetivo. Como resultado, EscherNet no solo aborda la síntesis de vistas novedosas en modo zero-shot, sino que también unifica de manera natural la reconstrucción 3D a partir de una y múltiples imágenes, combinando estas diversas tareas en un único marco cohesivo. Nuestros extensos experimentos demuestran que EscherNet alcanza un rendimiento de vanguardia en múltiples benchmarks, incluso en comparación con métodos específicamente diseñados para cada problema individual. Esta notable versatilidad abre nuevas direcciones para el diseño de arquitecturas neuronales escalables en visión 3D. Página del proyecto: https://kxhit.github.io/EscherNet.
English
We introduce EscherNet, a multi-view conditioned diffusion model for view
synthesis. EscherNet learns implicit and generative 3D representations coupled
with a specialised camera positional encoding, allowing precise and continuous
relative control of the camera transformation between an arbitrary number of
reference and target views. EscherNet offers exceptional generality,
flexibility, and scalability in view synthesis -- it can generate more than 100
consistent target views simultaneously on a single consumer-grade GPU, despite
being trained with a fixed number of 3 reference views to 3 target views. As a
result, EscherNet not only addresses zero-shot novel view synthesis, but also
naturally unifies single- and multi-image 3D reconstruction, combining these
diverse tasks into a single, cohesive framework. Our extensive experiments
demonstrate that EscherNet achieves state-of-the-art performance in multiple
benchmarks, even when compared to methods specifically tailored for each
individual problem. This remarkable versatility opens up new directions for
designing scalable neural architectures for 3D vision. Project page:
https://kxhit.github.io/EscherNet.