ChatPaper.aiChatPaper

Достаточно одного взгляда! Моноскопическое обучение для генерации новых ракурсов в естественных условиях

One View Is Enough! Monocular Training for In-the-Wild Novel View Generation

March 24, 2026
Авторы: Adrien Ramanana Rahary, Nicolas Dufour, Patrick Perez, David Picard
cs.AI

Аннотация

Монокулярный синтез новых видов традиционно требовал парных многовидовых изображений для обучения, что ограничивало масштаб и разнообразие обучающих данных. Мы утверждаем, что это необязательно: достаточно одного вида. Мы представляем OVIE, который обучается исключительно на несвязанных интернет-изображениях. Мы используем монокулярный оценщик глубины в качестве геометрического каркаса на этапе обучения: мы преобразуем исходное изображение в 3D, применяем выбранное преобразование камеры и проецируем для получения псевдоцелевого вида. Для обработки дискклюзий мы вводим маскированную схему обучения, которая ограничивает геометрические, перцептивные и текстурные потери валидными областями, позволяя обучаться на 30 миллионах неотобранных изображений. На этапе вывода OVIE не требует геометрии, не нуждаясь в оценщике глубины или 3D-представлении. Обученный исключительно на реальных изображениях, OVIE превосходит предыдущие методы в условиях zero-shot, будучи при этом в 600 раз быстрее второго лучшего базового метода. Код и модели общедоступны по адресу https://github.com/AdrienRR/ovie.
English
Monocular novel-view synthesis has long required multi-view image pairs for supervision, limiting training data scale and diversity. We argue it is not necessary: one view is enough. We present OVIE, trained entirely on unpaired internet images. We leverage a monocular depth estimator as a geometric scaffold at training time: we lift a source image into 3D, apply a sampled camera transformation, and project to obtain a pseudo-target view. To handle disocclusions, we introduce a masked training formulation that restricts geometric, perceptual, and textural losses to valid regions, enabling training on 30 million uncurated images. At inference, OVIE is geometry-free, requiring no depth estimator or 3D representation. Trained exclusively on in-the-wild images, OVIE outperforms prior methods in a zero-shot setting, while being 600x faster than the second-best baseline. Code and models are publicly available at https://github.com/AdrienRR/ovie.
PDF31March 26, 2026