ChatPaper.aiChatPaper

ARKit LabelMaker: Uma Nova Escala para Compreensão de Cenas 3D Internas

ARKit LabelMaker: A New Scale for Indoor 3D Scene Understanding

October 17, 2024
Autores: Guangda Ji, Silvan Weder, Francis Engelmann, Marc Pollefeys, Hermann Blum
cs.AI

Resumo

O desempenho das redes neurais aumenta tanto com o seu tamanho quanto com a quantidade de dados em que foram treinadas. Isso é evidenciado tanto na geração de linguagem quanto de imagens. No entanto, isso requer arquiteturas de rede amigáveis ao escalonamento, bem como conjuntos de dados em larga escala. Embora arquiteturas amigáveis ao escalonamento, como os transformadores, tenham surgido para tarefas de visão 3D, o momento GPT da visão 3D ainda está distante devido à falta de dados de treinamento. Neste artigo, apresentamos o ARKit LabelMaker, o primeiro conjunto de dados 3D do mundo real em larga escala com anotações semânticas densas. Especificamente, complementamos o conjunto de dados ARKitScenes com anotações semânticas densas que são geradas automaticamente em escala. Para isso, estendemos o LabelMaker, um pipeline de anotação automática recente, para atender às necessidades de pré-treinamento em larga escala. Isso envolve a extensão do pipeline com modelos de segmentação de ponta, bem como torná-lo robusto aos desafios do processamento em larga escala. Além disso, avançamos no estado-da-arte do desempenho no conjunto de dados ScanNet e ScanNet200 com modelos prevalentes de segmentação semântica 3D, demonstrando a eficácia do nosso conjunto de dados gerado.
English
The performance of neural networks scales with both their size and the amount of data they have been trained on. This is shown in both language and image generation. However, this requires scaling-friendly network architectures as well as large-scale datasets. Even though scaling-friendly architectures like transformers have emerged for 3D vision tasks, the GPT-moment of 3D vision remains distant due to the lack of training data. In this paper, we introduce ARKit LabelMaker, the first large-scale, real-world 3D dataset with dense semantic annotations. Specifically, we complement ARKitScenes dataset with dense semantic annotations that are automatically generated at scale. To this end, we extend LabelMaker, a recent automatic annotation pipeline, to serve the needs of large-scale pre-training. This involves extending the pipeline with cutting-edge segmentation models as well as making it robust to the challenges of large-scale processing. Further, we push forward the state-of-the-art performance on ScanNet and ScanNet200 dataset with prevalent 3D semantic segmentation models, demonstrating the efficacy of our generated dataset.

Summary

AI-Generated Summary

PDF72November 16, 2024