UniSHARP: Síntesis Universal de Vista Monocular Nítida
UniSHARP: Universal Sharp Monocular View Synthesis
June 5, 2026
Autores: Meixi Song, Dizhe Zhang, Hao Ren, Ruiyang Zhang, Bo Du, Ming-Hsuan Yang, Lu Qi
cs.AI
Resumen
En este trabajo, nos centramos en ampliar SHARP, el popular método de síntesis de vistas fotorrealistas, para el renderizado monocular universal en un continuo de sistemas de cámaras, desde cámaras convencionales de perspectiva hasta configuraciones de gran campo de visión, ojo de pez y panorámicas omnidireccionales. Para superar las suposiciones específicas de orificio estenopeico de SHARP, nuestra idea clave es alinear diversas imágenes en un espacio latente omnidireccional unificado. Así, proponemos UniSHARP, que realiza una alineación implícita tanto en el espacio de características como en el espacio gaussiano. Específicamente, las primitivas gaussianas se disponen a lo largo de rayos y distancias radiales en una representación universal basada en rayos, mientras que las características semánticas 2D y espaciales 3D extraídas de codificadores inspirados en UniK3D se decodifican conjuntamente para generar la nube gaussiana completa. Para evaluar de manera integral nuestro método, construimos un punto de referencia que abarca diversos sistemas de imagen en distintas escenas. Dicho punto de referencia se estratifica además por campo de visión (FoV) para permitir una evaluación detallada de la tarea de renderizado monocular universal. Experimentos exhaustivos en el punto de referencia propuesto demuestran la eficacia de UniSHARP, superando con creces a otros métodos alternativos. La página del proyecto se encuentra en: https://insta360-research-team.github.io/Unisharp-website/
English
In this work, we focus on extending SHARP, the popular photorealistic view synthesis method, for universal monocular rendering across a continuum of camera systems, from conventional perspective cameras to wide-field-of-view, fisheye and omnidirectional panoramic settings. To overcome the pinhole-specific assumptions of SHARP, our key idea is to align various images in a unified omnidirectional latent space. Thus, we propose UniSHARP, which performs implicit alignment in both feature and Gaussian spaces. Specifically, Gaussian primitives are arranged along rays and radial distances in a ray-based universal representation, while 2D semantic and 3D spatial features extracted from UniK3D-inspired encoders are jointly decoded to generate the complete Gaussian cloud. To comprehensively evaluate our method, we construct a benchmark covering diverse imaging systems across various scenes. The benchmark is further stratified by field of view (FoV) to enable fine-grained assessment of the universal monocular rendering task. Extensive experiments on the proposed benchmark demonstrate the effectiveness of UniSHARP, outperforming alternative methods by a large margin. The project page can be found at: https://insta360-research-team.github.io/Unisharp-website/