CAD-Tokenizer: К прототипированию CAD на основе текста через модально-специфичную токенизацию
CAD-Tokenizer: Towards Text-based CAD Prototyping via Modality-Specific Tokenization
September 25, 2025
Авторы: Ruiyu Wang, Shizhao Sun, Weijian Ma, Jiang Bian
cs.AI
Аннотация
Системы автоматизированного проектирования (САПР) являются фундаментальным компонентом промышленного прототипирования, где модели определяются не через сырые координаты, а через последовательности построений, такие как эскизы и выдавливания. Эта последовательная структура позволяет как эффективно инициализировать прототипы, так и впоследствии редактировать их. Текстово-управляемое прототипирование в САПР, объединяющее генерацию "текст-в-САПР" и редактирование САПР, имеет потенциал для оптимизации всего процесса проектирования. Однако предыдущие работы не исследовали этот подход, в основном потому, что стандартные токенизаторы больших языковых моделей (LLM) разбивают последовательности САПР на фрагменты естественного языка, не улавливая семантику на уровне примитивов САПР и препятствуя модулям внимания в моделировании геометрической структуры. Мы предполагаем, что мультимодальная стратегия токенизации, согласованная с примитивной и структурной природой САПР, может обеспечить более эффективные представления. В связи с этим мы предлагаем CAD-Tokenizer — фреймворк, который представляет данные САПР с помощью модально-специфичных токенов, используя последовательностный VQ-VAE с пулингом на уровне примитивов и ограниченным декодированием. Этот подход создает компактные, осознающие примитивы представления, которые соответствуют структурной природе САПР. Примененный к унифицированному текстово-управляемому прототипированию в САПР, CAD-Tokenizer значительно улучшает следование инструкциям и качество генерации, демонстрируя лучшие количественные и качественные результаты по сравнению как с универсальными LLM, так и с узкоспециализированными базовыми моделями.
English
Computer-Aided Design (CAD) is a foundational component of industrial
prototyping, where models are defined not by raw coordinates but by
construction sequences such as sketches and extrusions. This sequential
structure enables both efficient prototype initialization and subsequent
editing. Text-guided CAD prototyping, which unifies Text-to-CAD generation and
CAD editing, has the potential to streamline the entire design pipeline.
However, prior work has not explored this setting, largely because standard
large language model (LLM) tokenizers decompose CAD sequences into
natural-language word pieces, failing to capture primitive-level CAD semantics
and hindering attention modules from modeling geometric structure. We
conjecture that a multimodal tokenization strategy, aligned with CAD's
primitive and structural nature, can provide more effective representations. To
this end, we propose CAD-Tokenizer, a framework that represents CAD data with
modality-specific tokens using a sequence-based VQ-VAE with primitive-level
pooling and constrained decoding. This design produces compact, primitive-aware
representations that align with CAD's structural nature. Applied to unified
text-guided CAD prototyping, CAD-Tokenizer significantly improves instruction
following and generation quality, achieving better quantitative and qualitative
performance over both general-purpose LLMs and task-specific baselines.