Synthèse d'images monoculaires nettes en moins d'une seconde
Sharp Monocular View Synthesis in Less Than a Second
December 11, 2025
papers.authors: Lars Mescheder, Wei Dong, Shiwei Li, Xuyang Bai, Marcel Santos, Peiyun Hu, Bruno Lecouat, Mingmin Zhen, Amaël Delaunoy, Tian Fang, Yanghai Tsin, Stephan R. Richter, Vladlen Koltun
cs.AI
papers.abstract
Nous présentons SHARP, une approche de synthèse de vues photoréalistes à partir d'une seule image. À partir d'une photographie unique, SHARP régresse les paramètres d'une représentation 3D par Gaussiennes de la scène représentée. Ceci est réalisé en moins d'une seconde sur un GPU standard via une seule passe forward dans un réseau de neurones. La représentation par Gaussiennes 3D produite par SHARP peut ensuite être rendue en temps réel, générant des images photoréalistes haute résolution pour des vues voisines. La représentation est métrique, avec une échelle absolue, supportant des mouvements de caméra métriques. Les résultats expérimentaux démontrent que SHARP offre une généralisation zero-shot robuste sur différents jeux de données. Il établit un nouvel état de l'art sur plusieurs bases de données, réduisant le LPIPS de 25 à 34 % et le DISTS de 21 à 43 % par rapport au meilleur modèle précédent, tout en réduisant le temps de synthèse de trois ordres de grandeur. Le code et les poids sont disponibles à l'adresse https://github.com/apple/ml-sharp.
English
We present SHARP, an approach to photorealistic view synthesis from a single image. Given a single photograph, SHARP regresses the parameters of a 3D Gaussian representation of the depicted scene. This is done in less than a second on a standard GPU via a single feedforward pass through a neural network. The 3D Gaussian representation produced by SHARP can then be rendered in real time, yielding high-resolution photorealistic images for nearby views. The representation is metric, with absolute scale, supporting metric camera movements. Experimental results demonstrate that SHARP delivers robust zero-shot generalization across datasets. It sets a new state of the art on multiple datasets, reducing LPIPS by 25-34% and DISTS by 21-43% versus the best prior model, while lowering the synthesis time by three orders of magnitude. Code and weights are provided at https://github.com/apple/ml-sharp