UniSHARP : Synthèse universelle de vue monoculaire nette
UniSHARP: Universal Sharp Monocular View Synthesis
June 5, 2026
Auteurs: Meixi Song, Dizhe Zhang, Hao Ren, Ruiyang Zhang, Bo Du, Ming-Hsuan Yang, Lu Qi
cs.AI
Résumé
Dans ce travail, nous nous concentrons sur l'extension de SHARP, la méthode populaire de synthèse d'images photoréalistes, pour le rendu monoculaire universel sur un continuum de systèmes de caméras, allant des caméras conventionnelles à perspective aux configurations à grand champ de vision, fisheye et panoramiques omnidirectionnelles. Pour surmonter les hypothèses spécifiques au sténopé de SHARP, notre idée clé est d'aligner diverses images dans un espace latent omnidirectionnel unifié. Ainsi, nous proposons UniSHARP, qui effectue un alignement implicite à la fois dans les espaces de caractéristiques et gaussiens. Plus précisément, les primitives gaussiennes sont disposées le long de rayons et de distances radiales dans une représentation universelle basée sur les rayons, tandis que les caractéristiques sémantiques 2D et spatiales 3D extraites d'encodeurs inspirés d'UniK3D sont conjointement décodées pour générer le nuage gaussien complet. Pour évaluer de manière exhaustive notre méthode, nous construisons un référentiel couvrant divers systèmes d'imagerie à travers différentes scènes. Le référentiel est en outre stratifié par champ de vision (FoV) pour permettre une évaluation fine de la tâche de rendu monoculaire universel. Des expériences approfondies sur le référentiel proposé démontrent l'efficacité d'UniSHARP, surpassant largement les méthodes alternatives. La page du projet se trouve à l'adresse : https://insta360-research-team.github.io/Unisharp-website/
English
In this work, we focus on extending SHARP, the popular photorealistic view synthesis method, for universal monocular rendering across a continuum of camera systems, from conventional perspective cameras to wide-field-of-view, fisheye and omnidirectional panoramic settings. To overcome the pinhole-specific assumptions of SHARP, our key idea is to align various images in a unified omnidirectional latent space. Thus, we propose UniSHARP, which performs implicit alignment in both feature and Gaussian spaces. Specifically, Gaussian primitives are arranged along rays and radial distances in a ray-based universal representation, while 2D semantic and 3D spatial features extracted from UniK3D-inspired encoders are jointly decoded to generate the complete Gaussian cloud. To comprehensively evaluate our method, we construct a benchmark covering diverse imaging systems across various scenes. The benchmark is further stratified by field of view (FoV) to enable fine-grained assessment of the universal monocular rendering task. Extensive experiments on the proposed benchmark demonstrate the effectiveness of UniSHARP, outperforming alternative methods by a large margin. The project page can be found at: https://insta360-research-team.github.io/Unisharp-website/