Conclusão de Nuvem de Pontos com Modelos de Difusão Texto-para-Imagem Pré-treinados

Resumo

Os dados de nuvem de pontos coletados em aplicações do mundo real são frequentemente incompletos. A ausência de dados geralmente ocorre porque os objetos são observados a partir de perspectivas parciais, que capturam apenas um ângulo ou ponto de vista específico. Além disso, os dados podem ser incompletos devido a oclusões e amostragem de baixa resolução. As abordagens existentes de completamento dependem de conjuntos de dados de objetos predefinidos para guiar a completação de nuvens de pontos ruidosas e incompletas. No entanto, essas abordagens têm desempenho insatisfatório quando testadas em objetos Fora da Distribuição (Out-Of-Distribution, OOD), que são pouco representados no conjunto de dados de treinamento. Aqui, aproveitamos os avanços recentes na geração de imagens guiada por texto, que levaram a grandes avanços na geração de formas guiada por texto. Descrevemos uma abordagem chamada SDS-Complete, que utiliza um modelo de difusão pré-treinado de texto para imagem e aproveita a semântica textual de uma nuvem de pontos incompleta de um objeto para obter uma representação completa da superfície. O SDS-Complete pode completar uma variedade de objetos usando otimização em tempo de teste, sem a necessidade de coleta dispendiosa de informações 3D. Avaliamos o SDS-Complete em objetos escaneados incompletos, capturados por sensores de profundidade e scanners LiDAR do mundo real. Constatamos que ele reconstrói efetivamente objetos ausentes em conjuntos de dados comuns, reduzindo a perda de Chamfer em 50%, em média, em comparação com os métodos atuais. Página do projeto: https://sds-complete.github.io/

English

Point-cloud data collected in real-world applications are often incomplete. Data is typically missing due to objects being observed from partial viewpoints, which only capture a specific perspective or angle. Additionally, data can be incomplete due to occlusion and low-resolution sampling. Existing completion approaches rely on datasets of predefined objects to guide the completion of noisy and incomplete, point clouds. However, these approaches perform poorly when tested on Out-Of-Distribution (OOD) objects, that are poorly represented in the training dataset. Here we leverage recent advances in text-guided image generation, which lead to major breakthroughs in text-guided shape generation. We describe an approach called SDS-Complete that uses a pre-trained text-to-image diffusion model and leverages the text semantics of a given incomplete point cloud of an object, to obtain a complete surface representation. SDS-Complete can complete a variety of objects using test-time optimization without expensive collection of 3D information. We evaluate SDS Complete on incomplete scanned objects, captured by real-world depth sensors and LiDAR scanners. We find that it effectively reconstructs objects that are absent from common datasets, reducing Chamfer loss by 50% on average compared with current methods. Project page: https://sds-complete.github.io/

Conclusão de Nuvem de Pontos com Modelos de Difusão Texto-para-Imagem Pré-treinados

Point-Cloud Completion with Pretrained Text-to-image Diffusion Models

Resumo

Support