Eine Ansicht genügt! Monokulares Training für die Erzeugung neuer Ansichten in unkontrollierten Umgebungen
One View Is Enough! Monocular Training for In-the-Wild Novel View Generation
March 24, 2026
Autoren: Adrien Ramanana Rahary, Nicolas Dufour, Patrick Perez, David Picard
cs.AI
Zusammenfassung
Die monokulare Neuansichtssynthese benötigte lange Zeit Multi-View-Bildpaare zur Supervision, was die Skalierbarkeit und Diversität der Trainingsdaten begrenzte. Wir behaupten, dass dies unnötig ist: Eine Ansicht genügt. Wir stellen OVIE vor, das vollständig auf ungepaarten Internetbildern trainiert wird. Wir nutzen einen monokularen Tiefenschätzer als geometrisches Gerüst während des Trainings: Wir heben ein Quellbild in 3D an, wenden eine abgetastete Kameratransformation an und projizieren, um eine Pseudo-Zielansicht zu erzeugen. Um Disokklusionen zu behandeln, führen wir eine maskierte Trainingsformulierung ein, die geometrische, perzeptuelle und texturale Verluste auf valide Regionen beschränkt und so das Training auf 30 Millionen unkuratierten Bildern ermöglicht. Zur Inferenzzeit ist OVIE geometriefrei und benötigt weder Tiefenschätzer noch 3D-Repräsentation. Ausschließlich auf In-the-Wild-Bildern trainiert, übertrifft OVIE bisherige Methoden in einer Zero-Shot-Umgebung, ist dabei jedoch 600-mal schneller als die zweitbeste Baseline. Code und Modelle sind öffentlich verfügbar unter https://github.com/AdrienRR/ovie.
English
Monocular novel-view synthesis has long required multi-view image pairs for supervision, limiting training data scale and diversity. We argue it is not necessary: one view is enough. We present OVIE, trained entirely on unpaired internet images. We leverage a monocular depth estimator as a geometric scaffold at training time: we lift a source image into 3D, apply a sampled camera transformation, and project to obtain a pseudo-target view. To handle disocclusions, we introduce a masked training formulation that restricts geometric, perceptual, and textural losses to valid regions, enabling training on 30 million uncurated images. At inference, OVIE is geometry-free, requiring no depth estimator or 3D representation. Trained exclusively on in-the-wild images, OVIE outperforms prior methods in a zero-shot setting, while being 600x faster than the second-best baseline. Code and models are publicly available at https://github.com/AdrienRR/ovie.