Scharfe monokulare Bildsynthese in weniger als einer Sekunde
Sharp Monocular View Synthesis in Less Than a Second
December 11, 2025
papers.authors: Lars Mescheder, Wei Dong, Shiwei Li, Xuyang Bai, Marcel Santos, Peiyun Hu, Bruno Lecouat, Mingmin Zhen, Amaël Delaunoy, Tian Fang, Yanghai Tsin, Stephan R. Richter, Vladlen Koltun
cs.AI
papers.abstract
Wir stellen SHARP vor, einen Ansatz zur photorealistischen Synthese von Ansichten aus einem einzelnen Bild. Ausgehend von einer einzelnen Fotografie regressiert SHARP die Parameter einer 3D-Gauß-Darstellung der dargestellten Szene. Dies geschieht in weniger als einer Sekunde auf einer Standard-GPU mittels eines einzelnen Vorwärtsdurchlaufs durch ein neuronales Netz. Die von SHARP erzeugte 3D-Gauß-Darstellung kann anschließend in Echtzeit gerendert werden und liefert hochauflösende photorealistische Bilder für benachbarte Blickwinkel. Die Darstellung ist metrisch, mit absolutem Maßstab, und unterstützt metrische Kamerabewegungen. Experimentelle Ergebnisse zeigen, dass SHARP eine robuste Zero-Shot-Generalisierung über Datensätze hinweg erreicht. Es setzt einen neuen State-of-the-Art auf mehreren Datensätzen, reduziert LPIPS um 25–34 % und DISTS um 21–43 % im Vergleich zum besten bisherigen Modell, während die Synthesezeit um drei Größenordnungen verringert wird. Code und Gewichte sind unter https://github.com/apple/ml-sharp verfügbar.
English
We present SHARP, an approach to photorealistic view synthesis from a single image. Given a single photograph, SHARP regresses the parameters of a 3D Gaussian representation of the depicted scene. This is done in less than a second on a standard GPU via a single feedforward pass through a neural network. The 3D Gaussian representation produced by SHARP can then be rendered in real time, yielding high-resolution photorealistic images for nearby views. The representation is metric, with absolute scale, supporting metric camera movements. Experimental results demonstrate that SHARP delivers robust zero-shot generalization across datasets. It sets a new state of the art on multiple datasets, reducing LPIPS by 25-34% and DISTS by 21-43% versus the best prior model, while lowering the synthesis time by three orders of magnitude. Code and weights are provided at https://github.com/apple/ml-sharp