Desafio de Renderização Neural Esparsa AIM 2024: Conjunto de Dados e Referência
AIM 2024 Sparse Neural Rendering Challenge: Dataset and Benchmark
September 23, 2024
Autores: Michal Nazarczuk, Thomas Tanay, Sibi Catley-Chandar, Richard Shaw, Radu Timofte, Eduardo Pérez-Pellitero
cs.AI
Resumo
Os recentes avanços na renderização diferenciável e neural têm alcançado avanços impressionantes em uma variedade de tarefas 2D e 3D, como síntese de novas visualizações e reconstrução 3D. Tipicamente, a renderização diferenciável depende de uma cobertura densa de pontos de vista da cena, de modo que a geometria possa ser desambiguada apenas a partir das observações de aparência. Várias desafios surgem quando apenas algumas visualizações de entrada estão disponíveis, frequentemente referidas como renderização neural esparsa ou de poucas amostras. Por se tratar de um problema subdeterminado, a maioria das abordagens existentes introduz o uso de regularização, juntamente com uma diversidade de priors aprendidos e artesanais. Um problema recorrente na literatura de renderização esparsa é a falta de um conjunto de dados e protocolo de avaliação homogêneos e atualizados. Enquanto conjuntos de dados de alta resolução são padrão na literatura de reconstrução densa, métodos de renderização esparsa frequentemente avaliam com imagens de baixa resolução. Além disso, as divisões de dados são inconsistentes entre diferentes manuscritos, e imagens de referência para testes frequentemente estão disponíveis publicamente, o que pode levar ao overfitting. Neste trabalho, propomos o conjunto de dados e benchmark de Renderização Esparsa (SpaRe). Introduzimos um novo conjunto de dados que segue a configuração do conjunto de dados DTU MVS. O conjunto de dados é composto por 97 novas cenas baseadas em ativos sintéticos de alta qualidade. Cada cena possui até 64 visualizações de câmera e 7 configurações de iluminação, renderizadas com resolução de 1600x1200. Disponibilizamos um conjunto de treinamento com 82 cenas para promover abordagens generalizáveis, e fornecemos uma plataforma de avaliação online para os conjuntos de validação e teste, cujas imagens de referência permanecem ocultas. Propomos duas configurações esparsas diferentes (com 3 e 9 imagens de entrada, respectivamente). Isso fornece uma ferramenta poderosa e conveniente para avaliação reprodutível, e permite que os pesquisadores acessem facilmente um quadro de líderes público com os melhores resultados de desempenho. Disponível em: https://sparebenchmark.github.io/
English
Recent developments in differentiable and neural rendering have made
impressive breakthroughs in a variety of 2D and 3D tasks, e.g. novel view
synthesis, 3D reconstruction. Typically, differentiable rendering relies on a
dense viewpoint coverage of the scene, such that the geometry can be
disambiguated from appearance observations alone. Several challenges arise when
only a few input views are available, often referred to as sparse or few-shot
neural rendering. As this is an underconstrained problem, most existing
approaches introduce the use of regularisation, together with a diversity of
learnt and hand-crafted priors. A recurring problem in sparse rendering
literature is the lack of an homogeneous, up-to-date, dataset and evaluation
protocol. While high-resolution datasets are standard in dense reconstruction
literature, sparse rendering methods often evaluate with low-resolution images.
Additionally, data splits are inconsistent across different manuscripts, and
testing ground-truth images are often publicly available, which may lead to
over-fitting. In this work, we propose the Sparse Rendering (SpaRe) dataset and
benchmark. We introduce a new dataset that follows the setup of the DTU MVS
dataset. The dataset is composed of 97 new scenes based on synthetic,
high-quality assets. Each scene has up to 64 camera views and 7 lighting
configurations, rendered at 1600x1200 resolution. We release a training split
of 82 scenes to foster generalizable approaches, and provide an online
evaluation platform for the validation and test sets, whose ground-truth images
remain hidden. We propose two different sparse configurations (3 and 9 input
images respectively). This provides a powerful and convenient tool for
reproducible evaluation, and enable researchers easy access to a public
leaderboard with the state-of-the-art performance scores. Available at:
https://sparebenchmark.github.io/Summary
AI-Generated Summary