Eén beeld is genoeg! Monoculaire training voor het genereren van nieuwe aanzichten in ongestructureerde omgevingen
One View Is Enough! Monocular Training for In-the-Wild Novel View Generation
March 24, 2026
Auteurs: Adrien Ramanana Rahary, Nicolas Dufour, Patrick Perez, David Picard
cs.AI
Samenvatting
Monoculaire novel-view synthesis vereiste lange tijd multi-view beeldparen voor supervisie, wat de schaal en diversiteit van trainingsdata beperkte. Wij stellen dat dit niet nodig is: één beeld is voldoende. Wij presenteren OVIE, volledig getraind op ongepaarde internetbeelden. Wij benutten een monocular diepteschatter als geometrische scaffold tijdens de training: we tillen een bronbeeld op naar 3D, passen een bemonsterde cameratransformatie toe en projecteren dit om een pseudo-doelbeeld te verkrijgen. Om disocclusies te hanteren, introduceren we een gemaskeerde trainingsformulering die geometrische, perceptuele en textuurverliezen beperkt tot valide regio's, wat training op 30 miljoen ongecurateerde beelden mogelijk maakt. Tijdens inferentie is OVIE geometrie-vrij en vereist het geen diepteschatter of 3D-representatie. Uitsluitend getraind op in-the-wild beelden, overtreft OVIE eerdere methoden in een zero-shot setting, terwijl het 600x sneller is dan de op één na beste baseline. Code en modellen zijn publiekelijk beschikbaar op https://github.com/AdrienRR/ovie.
English
Monocular novel-view synthesis has long required multi-view image pairs for supervision, limiting training data scale and diversity. We argue it is not necessary: one view is enough. We present OVIE, trained entirely on unpaired internet images. We leverage a monocular depth estimator as a geometric scaffold at training time: we lift a source image into 3D, apply a sampled camera transformation, and project to obtain a pseudo-target view. To handle disocclusions, we introduce a masked training formulation that restricts geometric, perceptual, and textural losses to valid regions, enabling training on 30 million uncurated images. At inference, OVIE is geometry-free, requiring no depth estimator or 3D representation. Trained exclusively on in-the-wild images, OVIE outperforms prior methods in a zero-shot setting, while being 600x faster than the second-best baseline. Code and models are publicly available at https://github.com/AdrienRR/ovie.