Basta una sola vista! Addestramento monoculare per la generazione di nuove viste in ambienti non controllati

Abstract

La sintesi di nuove viste da immagini monoculari ha a lungo richiesto coppie di immagini multi-vista per la supervisione, limitando scala e diversità dei dati di addestramento. Sosteniamo che non sia necessario: una vista è sufficiente. Presentiamo OVIE, addestrato interamente su immagini internet non accoppiate. Sfruttiamo un estimatore di profondità monoculare come impalcatura geometrica durante l'addestramento: solleviamo un'immagine sorgente in 3D, applichiamo una trasformazione di camera campionata e proiettiamo per ottenere una pseudo-vista target. Per gestire le disocclusioni, introduciamo una formulazione di addestramento mascherata che limita le perdite geometriche, percettive e tessiturali alle regioni valide, consentendo l'addestramento su 30 milioni di immagini non curate. Al momento dell'inferenza, OVIE è privo di geometria, non richiedendo né estimatori di profondità né rappresentazioni 3D. Addestrato esclusivamente su immagini in-the-wild, OVIE supera i metodi precedenti in uno scenario zero-shot, risultando 600 volte più veloce del secondo miglior baseline. Codice e modelli sono disponibili pubblicamente su https://github.com/AdrienRR/ovie.

English

Monocular novel-view synthesis has long required multi-view image pairs for supervision, limiting training data scale and diversity. We argue it is not necessary: one view is enough. We present OVIE, trained entirely on unpaired internet images. We leverage a monocular depth estimator as a geometric scaffold at training time: we lift a source image into 3D, apply a sampled camera transformation, and project to obtain a pseudo-target view. To handle disocclusions, we introduce a masked training formulation that restricts geometric, perceptual, and textural losses to valid regions, enabling training on 30 million uncurated images. At inference, OVIE is geometry-free, requiring no depth estimator or 3D representation. Trained exclusively on in-the-wild images, OVIE outperforms prior methods in a zero-shot setting, while being 600x faster than the second-best baseline. Code and models are publicly available at https://github.com/AdrienRR/ovie.

Basta una sola vista! Addestramento monoculare per la generazione di nuove viste in ambienti non controllati

One View Is Enough! Monocular Training for In-the-Wild Novel View Generation

Abstract

Support