UniSHARP: Síntese Universal de Visão Monocular Nítida
UniSHARP: Universal Sharp Monocular View Synthesis
June 5, 2026
Autores: Meixi Song, Dizhe Zhang, Hao Ren, Ruiyang Zhang, Bo Du, Ming-Hsuan Yang, Lu Qi
cs.AI
Resumo
Neste trabalho, focamo-nos em estender o SHARP, o popular método de síntese de vistas fotorrealistas, para renderização monocular universal em um continuum de sistemas de câmera, desde câmeras perspectivas convencionais até configurações de campo de visão amplo, olho de peixe e panorâmicas omnidirecionais. Para superar as suposições específicas do modelo pinhole do SHARP, nossa ideia chave é alinhar várias imagens em um espaço latente omnidirecional unificado. Assim, propomos o UniSHARP, que realiza alinhamento implícito tanto no espaço de características quanto no espaço Gaussiano. Especificamente, primitivas Gaussianas são organizadas ao longo de raios e distâncias radiais em uma representação universal baseada em raios, enquanto características semânticas 2D e espaciais 3D extraídas de codificadores inspirados no UniK3D são decodificadas conjuntamente para gerar a nuvem Gaussiana completa. Para avaliar de forma abrangente nosso método, construímos um benchmark cobrindo diversos sistemas de imagem em várias cenas. O benchmark é ainda estratificado por campo de visão (FoV) para permitir uma avaliação detalhada da tarefa de renderização monocular universal. Extensos experimentos no benchmark proposto demonstram a eficácia do UniSHARP, superando métodos alternativos por uma margem significativa. A página do projeto pode ser encontrada em: https://insta360-research-team.github.io/Unisharp-website/
English
In this work, we focus on extending SHARP, the popular photorealistic view synthesis method, for universal monocular rendering across a continuum of camera systems, from conventional perspective cameras to wide-field-of-view, fisheye and omnidirectional panoramic settings. To overcome the pinhole-specific assumptions of SHARP, our key idea is to align various images in a unified omnidirectional latent space. Thus, we propose UniSHARP, which performs implicit alignment in both feature and Gaussian spaces. Specifically, Gaussian primitives are arranged along rays and radial distances in a ray-based universal representation, while 2D semantic and 3D spatial features extracted from UniK3D-inspired encoders are jointly decoded to generate the complete Gaussian cloud. To comprehensively evaluate our method, we construct a benchmark covering diverse imaging systems across various scenes. The benchmark is further stratified by field of view (FoV) to enable fine-grained assessment of the universal monocular rendering task. Extensive experiments on the proposed benchmark demonstrate the effectiveness of UniSHARP, outperforming alternative methods by a large margin. The project page can be found at: https://insta360-research-team.github.io/Unisharp-website/