ChatPaper.aiChatPaper

1秒未満で実現する高精細な単眼視点合成

Sharp Monocular View Synthesis in Less Than a Second

December 11, 2025
著者: Lars Mescheder, Wei Dong, Shiwei Li, Xuyang Bai, Marcel Santos, Peiyun Hu, Bruno Lecouat, Mingmin Zhen, Amaël Delaunoy, Tian Fang, Yanghai Tsin, Stephan R. Richter, Vladlen Koltun
cs.AI

要旨

本論文では、単一画像からの写実的なビュー合成手法「SHARP」を提案する。SHARPは単一の写真を入力として、描写されたシーンの3Dガウス表現のパラメータを回帰する。これは標準的なGPU上で、ニューラルネットワークの単一の順伝播により1秒未満で実行される。SHARPが生成する3Dガウス表現はリアルタイムでレンダリング可能であり、近傍視点における高解像度で写実的な画像を生成する。この表現は絶対スケールを持つ計量的な特性を有し、計量的なカメラ移動をサポートする。実験結果により、SHARPはデータセットを超えたロバストなゼロショット一般化性能を発揮することが実証された。複数のデータセットにおいて新たなstate-of-the-artを達成し、従来の最高性能モデルと比較してLPIPSを25-34%、DISTSを21-43%削減しつつ、合成時間を3桁短縮することに成功した。コードと重みはhttps://github.com/apple/ml-sharpで公開されている。
English
We present SHARP, an approach to photorealistic view synthesis from a single image. Given a single photograph, SHARP regresses the parameters of a 3D Gaussian representation of the depicted scene. This is done in less than a second on a standard GPU via a single feedforward pass through a neural network. The 3D Gaussian representation produced by SHARP can then be rendered in real time, yielding high-resolution photorealistic images for nearby views. The representation is metric, with absolute scale, supporting metric camera movements. Experimental results demonstrate that SHARP delivers robust zero-shot generalization across datasets. It sets a new state of the art on multiple datasets, reducing LPIPS by 25-34% and DISTS by 21-43% versus the best prior model, while lowering the synthesis time by three orders of magnitude. Code and weights are provided at https://github.com/apple/ml-sharp
PDF52December 17, 2025