CAD-MLLM: Объединение генерации CAD, зависящей от мультимодальности, с MLLM
CAD-MLLM: Unifying Multimodality-Conditioned CAD Generation With MLLM
November 7, 2024
Авторы: Jingwei Xu, Chenyu Wang, Zibo Zhao, Wen Liu, Yi Ma, Shenghua Gao
cs.AI
Аннотация
Этот документ направлен на разработку единой системы генерации компьютерной поддержки проектирования (CAD), способной легко создавать CAD-модели на основе ввода пользователя в виде текстового описания, изображений, облаков точек или их комбинации. Для достижения этой цели мы представляем CAD-MLLM, первую систему, способную генерировать параметрические CAD-модели при условии мультимодального ввода. Конкретно, в рамках каркаса CAD-MLLM мы используем последовательности команд CAD-моделей, а затем применяем передовые большие языковые модели (LLM) для выравнивания пространства признаков между этими разнообразными мультимодальными данными и векторизованными представлениями CAD-моделей. Для облегчения обучения модели мы разрабатываем комплексный конвейер построения данных и аннотации, который оснащает каждую CAD-модель соответствующими мультимодальными данными. Наш недавно созданный набор данных, названный Omni-CAD, является первым мультимодальным набором данных CAD, содержащим текстовое описание, многоплоскостные изображения, точки и последовательность команд для каждой CAD-модели. Он содержит примерно 450 тыс. экземпляров и их последовательности построения CAD. Для тщательной оценки качества наших созданных CAD-моделей мы выходим за рамки текущих метрик оценки, сосредотачиваясь на качестве восстановления, представляя дополнительные метрики, оценивающие качество топологии и степень ограничения поверхности. Обширные экспериментальные результаты демонстрируют, что CAD-MLLM значительно превосходит существующие условные методы генерации и остается высокоустойчивым к шумам и отсутствующим точкам. Страницу проекта и дополнительные визуализации можно найти по ссылке: https://cad-mllm.github.io/
English
This paper aims to design a unified Computer-Aided Design (CAD) generation
system that can easily generate CAD models based on the user's inputs in the
form of textual description, images, point clouds, or even a combination of
them. Towards this goal, we introduce the CAD-MLLM, the first system capable of
generating parametric CAD models conditioned on the multimodal input.
Specifically, within the CAD-MLLM framework, we leverage the command sequences
of CAD models and then employ advanced large language models (LLMs) to align
the feature space across these diverse multi-modalities data and CAD models'
vectorized representations. To facilitate the model training, we design a
comprehensive data construction and annotation pipeline that equips each CAD
model with corresponding multimodal data. Our resulting dataset, named
Omni-CAD, is the first multimodal CAD dataset that contains textual
description, multi-view images, points, and command sequence for each CAD
model. It contains approximately 450K instances and their CAD construction
sequences. To thoroughly evaluate the quality of our generated CAD models, we
go beyond current evaluation metrics that focus on reconstruction quality by
introducing additional metrics that assess topology quality and surface
enclosure extent. Extensive experimental results demonstrate that CAD-MLLM
significantly outperforms existing conditional generative methods and remains
highly robust to noises and missing points. The project page and more
visualizations can be found at: https://cad-mllm.github.io/Summary
AI-Generated Summary