Une seule vue suffit ! Entraînement monoculaire pour la génération de nouvelles vues en conditions réelles
One View Is Enough! Monocular Training for In-the-Wild Novel View Generation
March 24, 2026
Auteurs: Adrien Ramanana Rahary, Nicolas Dufour, Patrick Perez, David Picard
cs.AI
Résumé
La synthèse de nouvelles vues à partir d'une seule image a longtemps nécessité des paires d'images multi-vues pour la supervision, limitant ainsi l'échelle et la diversité des données d'entraînement. Nous soutenons que cela n'est pas nécessaire : une seule vue suffit. Nous présentons OVIE, entraîné entièrement sur des images internet non appariées. Nous exploitons un estimateur de profondeur monoculaire comme échafaudage géométrique lors de l'entraînement : nous projetons une image source en 3D, appliquons une transformation de caméra échantillonnée, et projetons à nouveau pour obtenir une vue pseudo-cible. Pour gérer les disocclusions, nous introduisons une formulation d'entraînement masquée qui restreint les pertes géométriques, perceptuelles et texturales aux régions valides, permettant un entraînement sur 30 millions d'images non triées. Lors de l'inférence, OVIE est exempt de géométrie, ne nécessitant ni estimateur de profondeur ni représentation 3D. Entraîné exclusivement sur des images en conditions réelles, OVIE surpasse les méthodes antérieures dans un cadre de généralisation zero-shot, tout en étant 600 fois plus rapide que la deuxième meilleure méthode de référence. Le code et les modèles sont disponibles publiquement à l'adresse https://github.com/AdrienRR/ovie.
English
Monocular novel-view synthesis has long required multi-view image pairs for supervision, limiting training data scale and diversity. We argue it is not necessary: one view is enough. We present OVIE, trained entirely on unpaired internet images. We leverage a monocular depth estimator as a geometric scaffold at training time: we lift a source image into 3D, apply a sampled camera transformation, and project to obtain a pseudo-target view. To handle disocclusions, we introduce a masked training formulation that restricts geometric, perceptual, and textural losses to valid regions, enabling training on 30 million uncurated images. At inference, OVIE is geometry-free, requiring no depth estimator or 3D representation. Trained exclusively on in-the-wild images, OVIE outperforms prior methods in a zero-shot setting, while being 600x faster than the second-best baseline. Code and models are publicly available at https://github.com/AdrienRR/ovie.