UniSHARP: Universele Scherpe Monoculaire Aanzichtsynthese
UniSHARP: Universal Sharp Monocular View Synthesis
June 5, 2026
Auteurs: Meixi Song, Dizhe Zhang, Hao Ren, Ruiyang Zhang, Bo Du, Ming-Hsuan Yang, Lu Qi
cs.AI
Samenvatting
In dit werk richten we ons op het uitbreiden van SHARP, de populaire fotorealistische beeldweergavemethode, voor universele monoculaire weergave over een continuüm van camerasystemen, van conventionele perspectivische camera's tot groothoek-, fisheye- en omnidirectionele panoramische instellingen. Om de pinhole-specifieke aannames van SHARP te overwinnen, is ons belangrijkste idee om verschillende afbeeldingen te aligneren in een uniforme omnidirectionele latentieruimte. Daarom stellen we UniSHARP voor, welke impliciete alignering uitvoert in zowel de kenmerk- als de Gaussische ruimte. Specifiek worden Gaussische primitieven gerangschikt langs stralen en radiale afstanden in een straalgebaseerde universele representatie, terwijl 2D-semantische en 3D-ruimtelijke kenmerken, geëxtraheerd uit UniK3D-geïnspireerde encoders, gezamenlijk worden gedecodeerd om de volledige Gaussische wolk te genereren. Om onze methode uitgebreid te evalueren, hebben we een benchmark samengesteld die diverse beeldvormingssystemen over verschillende scènes omvat. De benchmark wordt verder gestratificeerd per gezichtsveld (FoV) om een fijnmazige beoordeling van de universele monoculaire weergavetaak mogelijk te maken. Uitgebreide experimenten op de voorgestelde benchmark tonen de effectiviteit van UniSHARP aan, met een aanzienlijke marge beter dan alternatieve methoden. De projectpagina is te vinden op: https://insta360-research-team.github.io/Unisharp-website/
English
In this work, we focus on extending SHARP, the popular photorealistic view synthesis method, for universal monocular rendering across a continuum of camera systems, from conventional perspective cameras to wide-field-of-view, fisheye and omnidirectional panoramic settings. To overcome the pinhole-specific assumptions of SHARP, our key idea is to align various images in a unified omnidirectional latent space. Thus, we propose UniSHARP, which performs implicit alignment in both feature and Gaussian spaces. Specifically, Gaussian primitives are arranged along rays and radial distances in a ray-based universal representation, while 2D semantic and 3D spatial features extracted from UniK3D-inspired encoders are jointly decoded to generate the complete Gaussian cloud. To comprehensively evaluate our method, we construct a benchmark covering diverse imaging systems across various scenes. The benchmark is further stratified by field of view (FoV) to enable fine-grained assessment of the universal monocular rendering task. Extensive experiments on the proposed benchmark demonstrate the effectiveness of UniSHARP, outperforming alternative methods by a large margin. The project page can be found at: https://insta360-research-team.github.io/Unisharp-website/