CAD-Tokenizer: К прототипированию CAD на основе текста через модально-специфичную токенизацию

Аннотация

Системы автоматизированного проектирования (САПР) являются фундаментальным компонентом промышленного прототипирования, где модели определяются не через сырые координаты, а через последовательности построений, такие как эскизы и выдавливания. Эта последовательная структура позволяет как эффективно инициализировать прототипы, так и впоследствии редактировать их. Текстово-управляемое прототипирование в САПР, объединяющее генерацию "текст-в-САПР" и редактирование САПР, имеет потенциал для оптимизации всего процесса проектирования. Однако предыдущие работы не исследовали этот подход, в основном потому, что стандартные токенизаторы больших языковых моделей (LLM) разбивают последовательности САПР на фрагменты естественного языка, не улавливая семантику на уровне примитивов САПР и препятствуя модулям внимания в моделировании геометрической структуры. Мы предполагаем, что мультимодальная стратегия токенизации, согласованная с примитивной и структурной природой САПР, может обеспечить более эффективные представления. В связи с этим мы предлагаем CAD-Tokenizer — фреймворк, который представляет данные САПР с помощью модально-специфичных токенов, используя последовательностный VQ-VAE с пулингом на уровне примитивов и ограниченным декодированием. Этот подход создает компактные, осознающие примитивы представления, которые соответствуют структурной природе САПР. Примененный к унифицированному текстово-управляемому прототипированию в САПР, CAD-Tokenizer значительно улучшает следование инструкциям и качество генерации, демонстрируя лучшие количественные и качественные результаты по сравнению как с универсальными LLM, так и с узкоспециализированными базовыми моделями.

English

Computer-Aided Design (CAD) is a foundational component of industrial prototyping, where models are defined not by raw coordinates but by construction sequences such as sketches and extrusions. This sequential structure enables both efficient prototype initialization and subsequent editing. Text-guided CAD prototyping, which unifies Text-to-CAD generation and CAD editing, has the potential to streamline the entire design pipeline. However, prior work has not explored this setting, largely because standard large language model (LLM) tokenizers decompose CAD sequences into natural-language word pieces, failing to capture primitive-level CAD semantics and hindering attention modules from modeling geometric structure. We conjecture that a multimodal tokenization strategy, aligned with CAD's primitive and structural nature, can provide more effective representations. To this end, we propose CAD-Tokenizer, a framework that represents CAD data with modality-specific tokens using a sequence-based VQ-VAE with primitive-level pooling and constrained decoding. This design produces compact, primitive-aware representations that align with CAD's structural nature. Applied to unified text-guided CAD prototyping, CAD-Tokenizer significantly improves instruction following and generation quality, achieving better quantitative and qualitative performance over both general-purpose LLMs and task-specific baselines.

CAD-Tokenizer: К прототипированию CAD на основе текста через модально-специфичную токенизацию

CAD-Tokenizer: Towards Text-based CAD Prototyping via Modality-Specific Tokenization

Аннотация

Support