ChatPaper.aiChatPaper

Sintesi nitida di viste monoculari in meno di un secondo

Sharp Monocular View Synthesis in Less Than a Second

December 11, 2025
Autori: Lars Mescheder, Wei Dong, Shiwei Li, Xuyang Bai, Marcel Santos, Peiyun Hu, Bruno Lecouat, Mingmin Zhen, Amaël Delaunoy, Tian Fang, Yanghai Tsin, Stephan R. Richter, Vladlen Koltun
cs.AI

Abstract

Presentiamo SHARP, un approccio per la sintesi di viste fotorealistiche a partire da una singola immagine. Dato un'unica fotografia, SHARP regredisce i parametri di una rappresentazione 3D tramite Gaussiane della scena raffigurata. Ciò avviene in meno di un secondo su una GPU standard mediante un singolo passaggio in avanti attraverso una rete neurale. La rappresentazione 3D con Gaussiane prodotta da SHARP può quindi essere renderizzata in tempo reale, generando immagini fotorealistiche ad alta risoluzione per punti di vista vicini. La rappresentazione è metrica, con scala assoluta, e supporta movimenti metrici della telecamera. I risultati sperimentali dimostrano che SHARP offre una robusta generalizzazione zero-shot su diversi dataset. Il metodo stabilisce un nuovo stato dell'arte su più dataset, riducendo l'LPIPS del 25-34% e il DISTS del 21-43% rispetto al miglior modello precedente, riducendo al contempo il tempo di sintesi di tre ordini di grandezza. Codice e pesi sono disponibili all'indirizzo https://github.com/apple/ml-sharp.
English
We present SHARP, an approach to photorealistic view synthesis from a single image. Given a single photograph, SHARP regresses the parameters of a 3D Gaussian representation of the depicted scene. This is done in less than a second on a standard GPU via a single feedforward pass through a neural network. The 3D Gaussian representation produced by SHARP can then be rendered in real time, yielding high-resolution photorealistic images for nearby views. The representation is metric, with absolute scale, supporting metric camera movements. Experimental results demonstrate that SHARP delivers robust zero-shot generalization across datasets. It sets a new state of the art on multiple datasets, reducing LPIPS by 25-34% and DISTS by 21-43% versus the best prior model, while lowering the synthesis time by three orders of magnitude. Code and weights are provided at https://github.com/apple/ml-sharp
PDF52December 17, 2025