CAD-MLLM: Unificando a Geração de CAD Condicionada por Multimodalidade com MLLM
CAD-MLLM: Unifying Multimodality-Conditioned CAD Generation With MLLM
November 7, 2024
Autores: Jingwei Xu, Chenyu Wang, Zibo Zhao, Wen Liu, Yi Ma, Shenghua Gao
cs.AI
Resumo
Este artigo tem como objetivo projetar um sistema unificado de geração de Projeto Assistido por Computador (CAD) que possa facilmente gerar modelos CAD com base nas entradas do usuário na forma de descrição textual, imagens, nuvens de pontos ou até mesmo uma combinação destes. Para atingir esse objetivo, apresentamos o CAD-MLLM, o primeiro sistema capaz de gerar modelos CAD paramétricos condicionados à entrada multimodal. Especificamente, dentro do framework CAD-MLLM, aproveitamos as sequências de comandos de modelos CAD e então empregamos modelos de linguagem grandes avançados (LLMs) para alinhar o espaço de características em meio a esses diversos dados multimodais e representações vetorizadas de modelos CAD. Para facilitar o treinamento do modelo, projetamos um pipeline abrangente de construção de dados e anotação que equipa cada modelo CAD com dados multimodais correspondentes. Nosso conjunto de dados resultante, chamado Omni-CAD, é o primeiro conjunto de dados CAD multimodal que contém descrição textual, imagens de múltiplas vistas, pontos e sequência de comandos para cada modelo CAD. Ele contém aproximadamente 450 mil instâncias e suas sequências de construção CAD. Para avaliar minuciosamente a qualidade de nossos modelos CAD gerados, vamos além das métricas de avaliação atuais que se concentram na qualidade de reconstrução, introduzindo métricas adicionais que avaliam a qualidade topológica e a extensão de envoltório de superfície. Resultados experimentais extensivos demonstram que o CAD-MLLM supera significativamente os métodos generativos condicionais existentes e permanece altamente robusto a ruídos e pontos ausentes. A página do projeto e mais visualizações podem ser encontradas em: https://cad-mllm.github.io/
English
This paper aims to design a unified Computer-Aided Design (CAD) generation
system that can easily generate CAD models based on the user's inputs in the
form of textual description, images, point clouds, or even a combination of
them. Towards this goal, we introduce the CAD-MLLM, the first system capable of
generating parametric CAD models conditioned on the multimodal input.
Specifically, within the CAD-MLLM framework, we leverage the command sequences
of CAD models and then employ advanced large language models (LLMs) to align
the feature space across these diverse multi-modalities data and CAD models'
vectorized representations. To facilitate the model training, we design a
comprehensive data construction and annotation pipeline that equips each CAD
model with corresponding multimodal data. Our resulting dataset, named
Omni-CAD, is the first multimodal CAD dataset that contains textual
description, multi-view images, points, and command sequence for each CAD
model. It contains approximately 450K instances and their CAD construction
sequences. To thoroughly evaluate the quality of our generated CAD models, we
go beyond current evaluation metrics that focus on reconstruction quality by
introducing additional metrics that assess topology quality and surface
enclosure extent. Extensive experimental results demonstrate that CAD-MLLM
significantly outperforms existing conditional generative methods and remains
highly robust to noises and missing points. The project page and more
visualizations can be found at: https://cad-mllm.github.io/