Défi de Rendu Neuronal Épars AIM 2024 : Jeu de données et Évaluation
AIM 2024 Sparse Neural Rendering Challenge: Dataset and Benchmark
September 23, 2024
Auteurs: Michal Nazarczuk, Thomas Tanay, Sibi Catley-Chandar, Richard Shaw, Radu Timofte, Eduardo Pérez-Pellitero
cs.AI
Résumé
Les récents développements en rendu différentiable et rendu neuronal ont permis des avancées impressionnantes dans diverses tâches en 2D et 3D, telles que la synthèse de nouvelles vues et la reconstruction 3D. En général, le rendu différentiable repose sur une couverture dense des points de vue de la scène, de sorte que la géométrie puisse être distinguée uniquement à partir des observations d'apparence. Plusieurs défis surviennent lorsque seules quelques vues d'entrée sont disponibles, souvent désignées sous le terme de rendu neuronal clairsemé ou à faible nombre d'exemples. Comme il s'agit d'un problème sous-contraint, la plupart des approches existantes introduisent l'utilisation de régularisation, associée à une diversité de connaissances a priori apprises ou conçues manuellement. Un problème récurrent dans la littérature sur le rendu clairsemé est le manque d'un ensemble de données homogène et à jour, ainsi que d'un protocole d'évaluation. Alors que les ensembles de données haute résolution sont courants dans la littérature sur la reconstruction dense, les méthodes de rendu clairsemé évaluent souvent avec des images de basse résolution. De plus, les répartitions des données sont incohérentes entre les différents manuscrits, et les images de test véritables sont souvent disponibles publiquement, ce qui peut conduire à un surajustement. Dans ce travail, nous proposons l'ensemble de données et le banc d'essai Sparse Rendering (SpaRe). Nous introduisons un nouvel ensemble de données qui suit la configuration de l'ensemble de données DTU MVS. L'ensemble de données est composé de 97 nouvelles scènes basées sur des ressources synthétiques de haute qualité. Chaque scène comporte jusqu'à 64 points de vue de caméra et 7 configurations d'éclairage, rendus en résolution 1600x1200. Nous mettons à disposition un ensemble d'entraînement de 82 scènes pour favoriser des approches généralisables, et proposons une plateforme d'évaluation en ligne pour les ensembles de validation et de test, dont les images véritables restent cachées. Nous proposons deux configurations clairsemées différentes (respectivement 3 et 9 images d'entrée). Cela fournit un outil puissant et pratique pour une évaluation reproductible, et permet aux chercheurs d'accéder facilement à un classement public avec les scores de performance de pointe. Disponible sur : https://sparebenchmark.github.io/
English
Recent developments in differentiable and neural rendering have made
impressive breakthroughs in a variety of 2D and 3D tasks, e.g. novel view
synthesis, 3D reconstruction. Typically, differentiable rendering relies on a
dense viewpoint coverage of the scene, such that the geometry can be
disambiguated from appearance observations alone. Several challenges arise when
only a few input views are available, often referred to as sparse or few-shot
neural rendering. As this is an underconstrained problem, most existing
approaches introduce the use of regularisation, together with a diversity of
learnt and hand-crafted priors. A recurring problem in sparse rendering
literature is the lack of an homogeneous, up-to-date, dataset and evaluation
protocol. While high-resolution datasets are standard in dense reconstruction
literature, sparse rendering methods often evaluate with low-resolution images.
Additionally, data splits are inconsistent across different manuscripts, and
testing ground-truth images are often publicly available, which may lead to
over-fitting. In this work, we propose the Sparse Rendering (SpaRe) dataset and
benchmark. We introduce a new dataset that follows the setup of the DTU MVS
dataset. The dataset is composed of 97 new scenes based on synthetic,
high-quality assets. Each scene has up to 64 camera views and 7 lighting
configurations, rendered at 1600x1200 resolution. We release a training split
of 82 scenes to foster generalizable approaches, and provide an online
evaluation platform for the validation and test sets, whose ground-truth images
remain hidden. We propose two different sparse configurations (3 and 9 input
images respectively). This provides a powerful and convenient tool for
reproducible evaluation, and enable researchers easy access to a public
leaderboard with the state-of-the-art performance scores. Available at:
https://sparebenchmark.github.io/Summary
AI-Generated Summary