CAD-MLLM: Unificando la Generación de CAD Condicionada por Multimodalidad con MLLM
CAD-MLLM: Unifying Multimodality-Conditioned CAD Generation With MLLM
November 7, 2024
Autores: Jingwei Xu, Chenyu Wang, Zibo Zhao, Wen Liu, Yi Ma, Shenghua Gao
cs.AI
Resumen
Este documento tiene como objetivo diseñar un sistema unificado de generación de Diseño Asistido por Computadora (CAD) que pueda generar fácilmente modelos CAD basados en las entradas del usuario en forma de descripción textual, imágenes, nubes de puntos o incluso una combinación de ellas. Con este fin, presentamos el CAD-MLLM, el primer sistema capaz de generar modelos CAD paramétricos condicionados a la entrada multimodal. Específicamente, dentro del marco del CAD-MLLM, aprovechamos las secuencias de comandos de modelos CAD y luego empleamos modelos de lenguaje grandes avanzados (LLMs) para alinear el espacio de características en estos diversos datos multimodales y representaciones vectorizadas de modelos CAD. Para facilitar el entrenamiento del modelo, diseñamos un completo proceso de construcción de datos y anotación que dota a cada modelo CAD con datos multimodales correspondientes. Nuestro conjunto de datos resultante, llamado Omni-CAD, es el primer conjunto de datos CAD multimodal que contiene descripciones textuales, imágenes de múltiples vistas, puntos y secuencias de comandos para cada modelo CAD. Contiene aproximadamente 450K instancias y sus secuencias de construcción CAD. Para evaluar a fondo la calidad de nuestros modelos CAD generados, vamos más allá de las métricas de evaluación actuales que se centran en la calidad de reconstrucción al introducir métricas adicionales que evalúan la calidad topológica y la extensión de cierre de superficie. Los extensos resultados experimentales demuestran que CAD-MLLM supera significativamente a los métodos generativos condicionales existentes y sigue siendo altamente robusto ante ruidos y puntos faltantes. La página del proyecto y más visualizaciones se pueden encontrar en: https://cad-mllm.github.io/
English
This paper aims to design a unified Computer-Aided Design (CAD) generation
system that can easily generate CAD models based on the user's inputs in the
form of textual description, images, point clouds, or even a combination of
them. Towards this goal, we introduce the CAD-MLLM, the first system capable of
generating parametric CAD models conditioned on the multimodal input.
Specifically, within the CAD-MLLM framework, we leverage the command sequences
of CAD models and then employ advanced large language models (LLMs) to align
the feature space across these diverse multi-modalities data and CAD models'
vectorized representations. To facilitate the model training, we design a
comprehensive data construction and annotation pipeline that equips each CAD
model with corresponding multimodal data. Our resulting dataset, named
Omni-CAD, is the first multimodal CAD dataset that contains textual
description, multi-view images, points, and command sequence for each CAD
model. It contains approximately 450K instances and their CAD construction
sequences. To thoroughly evaluate the quality of our generated CAD models, we
go beyond current evaluation metrics that focus on reconstruction quality by
introducing additional metrics that assess topology quality and surface
enclosure extent. Extensive experimental results demonstrate that CAD-MLLM
significantly outperforms existing conditional generative methods and remains
highly robust to noises and missing points. The project page and more
visualizations can be found at: https://cad-mllm.github.io/Summary
AI-Generated Summary