EscherNet: Un modelo generativo para la síntesis escalable de vistas

Resumen

Presentamos EscherNet, un modelo de difusión condicionado por múltiples vistas para la síntesis de vistas. EscherNet aprende representaciones implícitas y generativas en 3D, junto con una codificación especializada de la posición de la cámara, lo que permite un control preciso y continuo de la transformación de la cámara entre un número arbitrario de vistas de referencia y vistas objetivo. EscherNet ofrece una excepcional generalidad, flexibilidad y escalabilidad en la síntesis de vistas: puede generar más de 100 vistas objetivo consistentes simultáneamente en una sola GPU de consumo, a pesar de haber sido entrenado con un número fijo de 3 vistas de referencia a 3 vistas objetivo. Como resultado, EscherNet no solo aborda la síntesis de vistas novedosas en modo zero-shot, sino que también unifica de manera natural la reconstrucción 3D a partir de una y múltiples imágenes, combinando estas diversas tareas en un único marco cohesivo. Nuestros extensos experimentos demuestran que EscherNet alcanza un rendimiento de vanguardia en múltiples benchmarks, incluso en comparación con métodos específicamente diseñados para cada problema individual. Esta notable versatilidad abre nuevas direcciones para el diseño de arquitecturas neuronales escalables en visión 3D. Página del proyecto: https://kxhit.github.io/EscherNet.

English

We introduce EscherNet, a multi-view conditioned diffusion model for view synthesis. EscherNet learns implicit and generative 3D representations coupled with a specialised camera positional encoding, allowing precise and continuous relative control of the camera transformation between an arbitrary number of reference and target views. EscherNet offers exceptional generality, flexibility, and scalability in view synthesis -- it can generate more than 100 consistent target views simultaneously on a single consumer-grade GPU, despite being trained with a fixed number of 3 reference views to 3 target views. As a result, EscherNet not only addresses zero-shot novel view synthesis, but also naturally unifies single- and multi-image 3D reconstruction, combining these diverse tasks into a single, cohesive framework. Our extensive experiments demonstrate that EscherNet achieves state-of-the-art performance in multiple benchmarks, even when compared to methods specifically tailored for each individual problem. This remarkable versatility opens up new directions for designing scalable neural architectures for 3D vision. Project page: https://kxhit.github.io/EscherNet.

EscherNet: Un modelo generativo para la síntesis escalable de vistas

EscherNet: A Generative Model for Scalable View Synthesis

Resumen

Support