ChatPaper.aiChatPaper

L'ordre des séquences compte : Exploiter les modèles vidéo dans la super-résolution 3D

Sequence Matters: Harnessing Video Models in 3D Super-Resolution

December 16, 2024
Auteurs: Hyun-kyu Ko, Dongheok Park, Youngin Park, Byeonghyeon Lee, Juhee Han, Eunbyung Park
cs.AI

Résumé

La super-résolution 3D vise à reconstruire des modèles 3D haute fidélité à partir d'images multi-vues de basse résolution (LR). Les premières études se sont principalement concentrées sur les modèles de super-résolution d'image unique (SISR) pour augmenter la résolution des images LR en images haute résolution. Cependant, ces méthodes manquent souvent de cohérence de vue car elles opèrent de manière indépendante sur chaque image. Bien que diverses techniques de post-traitement aient été largement explorées pour atténuer ces incohérences, elles n'ont pas encore résolu pleinement les problèmes. Dans cet article, nous menons une étude approfondie de la super-résolution 3D en exploitant les modèles de super-résolution vidéo (VSR). En utilisant les modèles VSR, nous garantissons un plus haut degré de cohérence spatiale et pouvons faire référence à des informations spatiales environnantes, ce qui conduit à des reconstructions plus précises et détaillées. Nos résultats révèlent que les modèles VSR peuvent donner des performances remarquables même sur des séquences dépourvues d'alignement spatial précis. Sur la base de cette observation, nous proposons une approche simple mais pratique pour aligner les images LR sans impliquer de fine-tuning ou générer une trajectoire "lisse" à partir des modèles 3D entraînés sur les images LR. Les résultats expérimentaux montrent que des algorithmes étonnamment simples peuvent atteindre les meilleurs résultats de super-résolution 3D sur des ensembles de données de référence standard, tels que les ensembles de données NeRF-synthétiques et MipNeRF-360. Page du projet : https://ko-lani.github.io/Sequence-Matters
English
3D super-resolution aims to reconstruct high-fidelity 3D models from low-resolution (LR) multi-view images. Early studies primarily focused on single-image super-resolution (SISR) models to upsample LR images into high-resolution images. However, these methods often lack view consistency because they operate independently on each image. Although various post-processing techniques have been extensively explored to mitigate these inconsistencies, they have yet to fully resolve the issues. In this paper, we perform a comprehensive study of 3D super-resolution by leveraging video super-resolution (VSR) models. By utilizing VSR models, we ensure a higher degree of spatial consistency and can reference surrounding spatial information, leading to more accurate and detailed reconstructions. Our findings reveal that VSR models can perform remarkably well even on sequences that lack precise spatial alignment. Given this observation, we propose a simple yet practical approach to align LR images without involving fine-tuning or generating 'smooth' trajectory from the trained 3D models over LR images. The experimental results show that the surprisingly simple algorithms can achieve the state-of-the-art results of 3D super-resolution tasks on standard benchmark datasets, such as the NeRF-synthetic and MipNeRF-360 datasets. Project page: https://ko-lani.github.io/Sequence-Matters

Summary

AI-Generated Summary

PDF112December 23, 2024