Uma Visão é Suficiente! Treinamento Monocular para Geração de Novas Perspectivas em Ambientes Não Controlados

Resumo

A síntese de novas vistas a partir de imagens monoculares sempre exigiu pares de imagens multi-vista para supervisão, limitando a escala e diversidade dos dados de treinamento. Argumentamos que isso não é necessário: uma vista é suficiente. Apresentamos o OVIE, treinado inteiramente em imagens não pareadas da internet. Utilizamos um estimador de profundidade monocular como arcabouço geométrico durante o treinamento: elevamos uma imagem de origem para 3D, aplicamos uma transformação de câmera amostrada e projetamos para obter uma pseudo-vista de destino. Para lidar com desoclusões, introduzimos uma formulação de treinamento mascarado que restringe as perdas geométricas, perceptuais e texturais a regiões válidas, permitindo o treinamento em 30 milhões de imagens não curadas. Na inferência, o OVIE é livre de geometria, não exigindo nenhum estimador de profundidade ou representação 3D. Treinado exclusivamente em imagens do mundo real, o OVIE supera métodos anteriores em um cenário de *zero-shot*, sendo 600x mais rápido que a segunda melhor baseline. Código e modelos estão publicamente disponíveis em https://github.com/AdrienRR/ovie.

English

Monocular novel-view synthesis has long required multi-view image pairs for supervision, limiting training data scale and diversity. We argue it is not necessary: one view is enough. We present OVIE, trained entirely on unpaired internet images. We leverage a monocular depth estimator as a geometric scaffold at training time: we lift a source image into 3D, apply a sampled camera transformation, and project to obtain a pseudo-target view. To handle disocclusions, we introduce a masked training formulation that restricts geometric, perceptual, and textural losses to valid regions, enabling training on 30 million uncurated images. At inference, OVIE is geometry-free, requiring no depth estimator or 3D representation. Trained exclusively on in-the-wild images, OVIE outperforms prior methods in a zero-shot setting, while being 600x faster than the second-best baseline. Code and models are publicly available at https://github.com/AdrienRR/ovie.