¡Una Vista es Suficiente! Entrenamiento Monocular para la Generación de Nuevas Vistas en Entornos Naturales

Resumen

La síntesis de nuevas vistas a partir de una sola imagen ha requerido tradicionalmente pares de imágenes multi-vista para su supervisión, lo que limita la escala y diversidad de los datos de entrenamiento. Sostenemos que esto no es necesario: una sola vista es suficiente. Presentamos OVIE, entrenado completamente con imágenes de internet no emparejadas. Aprovechamos un estimador de profundidad monocular como andamiaje geométrico durante el entrenamiento: elevamos una imagen fuente a 3D, aplicamos una transformación de cámara muestreada y proyectamos para obtener una vista pseudo-objetivo. Para manejar las disoclusiones, introducimos una formulación de entrenamiento enmascarado que restringe las pérdidas geométrica, perceptual y textural a las regiones válidas, permitiendo el entrenamiento con 30 millones de imágenes no curadas. En la inferencia, OVIE no requiere geometría, prescindiendo de estimadores de profundidad o representaciones 3D. Entrenado exclusivamente con imágenes del mundo real, OVIE supera a métodos anteriores en un entorno de cero disparos, siendo además 600 veces más rápido que el segundo mejor método de referencia. El código y los modelos están disponibles públicamente en https://github.com/AdrienRR/ovie.

English

Monocular novel-view synthesis has long required multi-view image pairs for supervision, limiting training data scale and diversity. We argue it is not necessary: one view is enough. We present OVIE, trained entirely on unpaired internet images. We leverage a monocular depth estimator as a geometric scaffold at training time: we lift a source image into 3D, apply a sampled camera transformation, and project to obtain a pseudo-target view. To handle disocclusions, we introduce a masked training formulation that restricts geometric, perceptual, and textural losses to valid regions, enabling training on 30 million uncurated images. At inference, OVIE is geometry-free, requiring no depth estimator or 3D representation. Trained exclusively on in-the-wild images, OVIE outperforms prior methods in a zero-shot setting, while being 600x faster than the second-best baseline. Code and models are publicly available at https://github.com/AdrienRR/ovie.

¡Una Vista es Suficiente! Entrenamiento Monocular para la Generación de Nuevas Vistas en Entornos Naturales

One View Is Enough! Monocular Training for In-the-Wild Novel View Generation

Resumen

Support