NU-MCC: Многовидовое компрессионное кодирование с соседним декодером и отталкивающей UDF
NU-MCC: Multiview Compressive Coding with Neighborhood Decoder and Repulsive UDF
July 18, 2023
Авторы: Stefan Lionar, Xiangyu Xu, Min Lin, Gim Hee Lee
cs.AI
Аннотация
Значительный прогресс был достигнут в области 3D-реконструкции на основе однокадровых RGB-D данных. MCC (Multi-view Consistent Completion) в настоящее время является передовым методом в этой области, демонстрирующим беспрецедентные успехи благодаря сочетанию трансформеров для обработки изображений и масштабного обучения. Однако мы выявили два ключевых ограничения MCC: 1) Декодер на основе трансформера неэффективен при обработке большого количества запрашиваемых точек; 2) 3D-представление испытывает трудности с восстановлением деталей высокой точности. В данной статье мы предлагаем новый подход под названием NU-MCC, который устраняет эти ограничения. NU-MCC включает два ключевых нововведения: декодер на основе соседства (Neighborhood decoder) и отталкивающую функцию беззнакового расстояния (Repulsive UDF). Во-первых, наш декодер на основе соседства вводит центральные точки в качестве эффективного прокси для визуальных признаков входных данных, позволяя каждой запрашиваемой точке учитывать только небольшое соседство. Этот подход не только значительно ускоряет процесс вывода, но и позволяет использовать более детализированные визуальные признаки для улучшения восстановления 3D-текстур. Во-вторых, наша Repulsive UDF представляет собой новую альтернативу полю занятости, используемому в MCC, что существенно повышает качество 3D-реконструкции объектов. В отличие от стандартных UDF, которые страдают от появления дыр в результатах, предложенная нами Repulsive UDF обеспечивает более полное восстановление поверхности. Экспериментальные результаты показывают, что NU-MCC способен обучать мощное 3D-представление, значительно продвигая состояние дел в области однокадровой 3D-реконструкции. В частности, он превосходит MCC на 9,7% по показателю F1-меры на наборе данных CO3D-v2 при более чем пятикратном увеличении скорости работы.
English
Remarkable progress has been made in 3D reconstruction from single-view RGB-D
inputs. MCC is the current state-of-the-art method in this field, which
achieves unprecedented success by combining vision Transformers with
large-scale training. However, we identified two key limitations of MCC: 1) The
Transformer decoder is inefficient in handling large number of query points; 2)
The 3D representation struggles to recover high-fidelity details. In this
paper, we propose a new approach called NU-MCC that addresses these
limitations. NU-MCC includes two key innovations: a Neighborhood decoder and a
Repulsive Unsigned Distance Function (Repulsive UDF). First, our Neighborhood
decoder introduces center points as an efficient proxy of input visual
features, allowing each query point to only attend to a small neighborhood.
This design not only results in much faster inference speed but also enables
the exploitation of finer-scale visual features for improved recovery of 3D
textures. Second, our Repulsive UDF is a novel alternative to the occupancy
field used in MCC, significantly improving the quality of 3D object
reconstruction. Compared to standard UDFs that suffer from holes in results,
our proposed Repulsive UDF can achieve more complete surface reconstruction.
Experimental results demonstrate that NU-MCC is able to learn a strong 3D
representation, significantly advancing the state of the art in single-view 3D
reconstruction. Particularly, it outperforms MCC by 9.7% in terms of the
F1-score on the CO3D-v2 dataset with more than 5x faster running speed.