UniSHARP: Universelle scharfe monokulare Ansichtssynthese
UniSHARP: Universal Sharp Monocular View Synthesis
June 5, 2026
Autoren: Meixi Song, Dizhe Zhang, Hao Ren, Ruiyang Zhang, Bo Du, Ming-Hsuan Yang, Lu Qi
cs.AI
Zusammenfassung
In dieser Arbeit konzentrieren wir uns auf die Erweiterung von SHARP, der beliebten fotorealistischen Ansichtssynthesemethode, für die universelle monokulare Darstellung über ein Kontinuum von Kamerasystemen hinweg – von herkömmlichen perspektivischen Kameras über Weitwinkel-, Fischaugen- bis hin zu omnidirektionalen Panorama-Einstellungen. Um die lochkammerspezifischen Annahmen von SHARP zu überwinden, besteht unsere Kernidee darin, verschiedene Bilder in einem vereinheitlichten omnidirektionalen latenten Raum auszurichten. Daher schlagen wir UniSHARP vor, das eine implizite Ausrichtung sowohl im Merkmals- als auch im Gauß-Raum durchführt. Insbesondere werden Gaußsche Primitive entlang von Strahlen und radialen Abständen in einer strahlenbasierten universellen Darstellung angeordnet, während 2D-semantische und 3D-räumliche Merkmale aus von UniK3D inspirierten Encodern gemeinsam dekodiert werden, um die vollständige Gaußsche Wolke zu erzeugen. Zur umfassenden Evaluierung unserer Methode erstellen wir einen Benchmark, der verschiedene Bildgebungssysteme über verschiedene Szenen abdeckt. Der Benchmark wird weiterhin nach Sichtfeld (FoV) geschichtet, um eine fein granulierte Bewertung der universellen monokularen Rendering-Aufgabe zu ermöglichen. Umfangreiche Experimente mit dem vorgeschlagenen Benchmark belegen die Wirksamkeit von UniSHARP, das alternative Methoden mit großem Abstand übertrifft. Die Projektseite ist zu finden unter: https://insta360-research-team.github.io/Unisharp-website/
English
In this work, we focus on extending SHARP, the popular photorealistic view synthesis method, for universal monocular rendering across a continuum of camera systems, from conventional perspective cameras to wide-field-of-view, fisheye and omnidirectional panoramic settings. To overcome the pinhole-specific assumptions of SHARP, our key idea is to align various images in a unified omnidirectional latent space. Thus, we propose UniSHARP, which performs implicit alignment in both feature and Gaussian spaces. Specifically, Gaussian primitives are arranged along rays and radial distances in a ray-based universal representation, while 2D semantic and 3D spatial features extracted from UniK3D-inspired encoders are jointly decoded to generate the complete Gaussian cloud. To comprehensively evaluate our method, we construct a benchmark covering diverse imaging systems across various scenes. The benchmark is further stratified by field of view (FoV) to enable fine-grained assessment of the universal monocular rendering task. Extensive experiments on the proposed benchmark demonstrate the effectiveness of UniSHARP, outperforming alternative methods by a large margin. The project page can be found at: https://insta360-research-team.github.io/Unisharp-website/