UniSHARP: Универсальный синтез резких монокулярных изображений

Аннотация

В данной работе мы сосредоточились на расширении популярного метода фотореалистичного синтеза видов SHARP для универсального монокулярного рендеринга в континууме камерных систем — от обычных перспективных камер до широкоугольных, «рыбий глаз» и всесторонних панорамных настроек. Чтобы преодолеть предположения SHARP, специфичные для камеры-обскуры, наша ключевая идея заключается в выравнивании различных изображений в едином всестороннем латентном пространстве. Таким образом, мы предлагаем UniSHARP, который выполняет неявное выравнивание как в пространстве признаков, так и в пространстве гауссовых примитивов. В частности, гауссовы примитивы располагаются вдоль лучей и радиальных расстояний в универсальном представлении на основе лучей, в то время как 2D семантические и 3D пространственные признаки, извлеченные кодерами, вдохновленными UniK3D, совместно декодируются для генерации полного гауссова облака. Для всесторонней оценки нашего метода мы создали бенчмарк, охватывающий различные системы визуализации в разнообразных сценах. Бенчмарк дополнительно стратифицирован по полю зрения (FoV), что позволяет провести детальную оценку задачи универсального монокулярного рендеринга. Многочисленные эксперименты на предложенном бенчмарке демонстрируют эффективность UniSHARP, превосходящего альтернативные методы с большим отрывом. Страница проекта доступна по ссылке: https://insta360-research-team.github.io/Unisharp-website/

English

In this work, we focus on extending SHARP, the popular photorealistic view synthesis method, for universal monocular rendering across a continuum of camera systems, from conventional perspective cameras to wide-field-of-view, fisheye and omnidirectional panoramic settings. To overcome the pinhole-specific assumptions of SHARP, our key idea is to align various images in a unified omnidirectional latent space. Thus, we propose UniSHARP, which performs implicit alignment in both feature and Gaussian spaces. Specifically, Gaussian primitives are arranged along rays and radial distances in a ray-based universal representation, while 2D semantic and 3D spatial features extracted from UniK3D-inspired encoders are jointly decoded to generate the complete Gaussian cloud. To comprehensively evaluate our method, we construct a benchmark covering diverse imaging systems across various scenes. The benchmark is further stratified by field of view (FoV) to enable fine-grained assessment of the universal monocular rendering task. Extensive experiments on the proposed benchmark demonstrate the effectiveness of UniSHARP, outperforming alternative methods by a large margin. The project page can be found at: https://insta360-research-team.github.io/Unisharp-website/