Острое моноскопическое синтезирование изображений менее чем за секунду
Sharp Monocular View Synthesis in Less Than a Second
December 11, 2025
Авторы: Lars Mescheder, Wei Dong, Shiwei Li, Xuyang Bai, Marcel Santos, Peiyun Hu, Bruno Lecouat, Mingmin Zhen, Amaël Delaunoy, Tian Fang, Yanghai Tsin, Stephan R. Richter, Vladlen Koltun
cs.AI
Аннотация
Мы представляем SHARP — метод синтеза фотореалистичных видов из одного изображения. По заданной единственной фотографии SHARP регрессирует параметры 3D-гауссовского представления сцены. Это выполняется менее чем за секунду на стандартном GPU за один прямой проход через нейронную сеть. Полученное 3D-гауссовское представление затем может быть визуализировано в реальном времени, генерируя высококачественные фотореалистичные изображения для соседних ракурсов. Представление является метрическим, имеет абсолютный масштаб и поддерживает метрические перемещения камеры. Экспериментальные результаты демонстрируют, что SHARP обеспечивает надежную zero-shot-генерализацию на различных наборах данных. Метод устанавливает новый state-of-the-art на нескольких наборах данных, снижая LPIPS на 25–34% и DISTS на 21–43% по сравнению с лучшей предыдущей моделью, одновременно сокращая время синтеза на три порядка величины. Код и веса модели доступны по адресу https://github.com/apple/ml-sharp
English
We present SHARP, an approach to photorealistic view synthesis from a single image. Given a single photograph, SHARP regresses the parameters of a 3D Gaussian representation of the depicted scene. This is done in less than a second on a standard GPU via a single feedforward pass through a neural network. The 3D Gaussian representation produced by SHARP can then be rendered in real time, yielding high-resolution photorealistic images for nearby views. The representation is metric, with absolute scale, supporting metric camera movements. Experimental results demonstrate that SHARP delivers robust zero-shot generalization across datasets. It sets a new state of the art on multiple datasets, reducing LPIPS by 25-34% and DISTS by 21-43% versus the best prior model, while lowering the synthesis time by three orders of magnitude. Code and weights are provided at https://github.com/apple/ml-sharp