ChatPaper.aiChatPaper

Síntesis de Imágenes Nítidas con una Sola Vista en Menos de un Segundo

Sharp Monocular View Synthesis in Less Than a Second

December 11, 2025
Autores: Lars Mescheder, Wei Dong, Shiwei Li, Xuyang Bai, Marcel Santos, Peiyun Hu, Bruno Lecouat, Mingmin Zhen, Amaël Delaunoy, Tian Fang, Yanghai Tsin, Stephan R. Richter, Vladlen Koltun
cs.AI

Resumen

Presentamos SHARP, un enfoque para la síntesis de vistas fotorrealistas a partir de una sola imagen. Dada una única fotografía, SHARP regresa los parámetros de una representación basada en gaussianos 3D de la escena representada. Esto se realiza en menos de un segundo en una GPU estándar mediante una única pasada hacia adelante a través de una red neuronal. La representación de gaussianos 3D producida por SHARP puede luego renderizarse en tiempo real, generando imágenes fotorrealistas de alta resolución para vistas cercanas. La representación es métrica, con escala absoluta, lo que permite movimientos de cámara métricos. Los resultados experimentales demuestran que SHARP ofrece una generalización robusta *zero-shot* entre diferentes conjuntos de datos. Establece un nuevo estado del arte en múltiples conjuntos de datos, reduciendo LPIPS en un 25-34% y DISTS en un 21-43% respecto al mejor modelo anterior, mientras reduce el tiempo de síntesis en tres órdenes de magnitud. El código y los pesos se proporcionan en https://github.com/apple/ml-sharp.
English
We present SHARP, an approach to photorealistic view synthesis from a single image. Given a single photograph, SHARP regresses the parameters of a 3D Gaussian representation of the depicted scene. This is done in less than a second on a standard GPU via a single feedforward pass through a neural network. The 3D Gaussian representation produced by SHARP can then be rendered in real time, yielding high-resolution photorealistic images for nearby views. The representation is metric, with absolute scale, supporting metric camera movements. Experimental results demonstrate that SHARP delivers robust zero-shot generalization across datasets. It sets a new state of the art on multiple datasets, reducing LPIPS by 25-34% and DISTS by 21-43% versus the best prior model, while lowering the synthesis time by three orders of magnitude. Code and weights are provided at https://github.com/apple/ml-sharp
PDF52December 17, 2025