ChatPaper.aiChatPaper

Scherpe monoscopische beeldsynthese in minder dan een seconde

Sharp Monocular View Synthesis in Less Than a Second

December 11, 2025
Auteurs: Lars Mescheder, Wei Dong, Shiwei Li, Xuyang Bai, Marcel Santos, Peiyun Hu, Bruno Lecouat, Mingmin Zhen, Amaël Delaunoy, Tian Fang, Yanghai Tsin, Stephan R. Richter, Vladlen Koltun
cs.AI

Samenvatting

Wij presenteren SHARP, een methode voor fotorealistische viewsynthese vanuit één enkele afbeelding. Gegeven een enkele foto, schat SHARP de parameters van een 3D Gaussische representatie van de weergegeven scène. Dit gebeurt in minder dan een seconde op een standaard GPU via één enkel voorwaarts pass door een neuraal netwerk. De 3D Gaussische representatie gegenereerd door SHARP kan vervolgens in realtime worden weergegeven, wat hoogwaardige fotorealistische beelden oplevert voor nabije camerastandpunten. De representatie is metrisch, met een absolute schaal, en ondersteunt metrische camerabewegingen. Experimentele resultaten tonen aan dat SHARP robuuste zero-shot generalisatie over datasets biedt. Het vestigt een nieuwe state-of-the-art op meerdere datasets, waarbij de LPIPS-score met 25-34% en de DISTS-score met 21-43% wordt verlaagd ten opzichte van het beste eerdere model, terwijl de synthetiseringstijd met drie grootteordes wordt verkort. Code en gewichten zijn beschikbaar op https://github.com/apple/ml-sharp.
English
We present SHARP, an approach to photorealistic view synthesis from a single image. Given a single photograph, SHARP regresses the parameters of a 3D Gaussian representation of the depicted scene. This is done in less than a second on a standard GPU via a single feedforward pass through a neural network. The 3D Gaussian representation produced by SHARP can then be rendered in real time, yielding high-resolution photorealistic images for nearby views. The representation is metric, with absolute scale, supporting metric camera movements. Experimental results demonstrate that SHARP delivers robust zero-shot generalization across datasets. It sets a new state of the art on multiple datasets, reducing LPIPS by 25-34% and DISTS by 21-43% versus the best prior model, while lowering the synthesis time by three orders of magnitude. Code and weights are provided at https://github.com/apple/ml-sharp
PDF52December 17, 2025