CAD-Tokenizer: モダリティ固有のトークン化によるテキストベースCADプロトタイピングの実現
CAD-Tokenizer: Towards Text-based CAD Prototyping via Modality-Specific Tokenization
September 25, 2025
著者: Ruiyu Wang, Shizhao Sun, Weijian Ma, Jiang Bian
cs.AI
要旨
コンピュータ支援設計(CAD)は、工業用プロトタイピングの基盤となる要素であり、モデルは生の座標ではなく、スケッチや押し出しなどの構築シーケンスによって定義されます。このシーケンシャルな構造は、効率的なプロトタイプの初期化とその後の編集を可能にします。テキストガイド型CADプロトタイピングは、テキストからCADへの生成とCAD編集を統合し、設計プロセス全体を合理化する可能性を秘めています。しかし、これまでの研究ではこの設定が探求されておらず、その主な理由は、標準的な大規模言語モデル(LLM)のトークナイザーがCADシーケンスを自然言語の単語片に分解し、プリミティブレベルのCADセマンティクスを捉えられず、幾何学的構造をモデル化するためのアテンションモジュールを妨げるためです。我々は、CADのプリミティブおよび構造的な性質に沿ったマルチモーダルトークン化戦略が、より効果的な表現を提供できると推測します。この目的のために、我々はCAD-Tokenizerを提案します。これは、プリミティブレベルのプーリングと制約付きデコーディングを備えたシーケンスベースのVQ-VAEを使用して、モダリティ固有のトークンでCADデータを表現するフレームワークです。この設計は、CADの構造的な性質に沿ったコンパクトでプリミティブを意識した表現を生成します。統合されたテキストガイド型CADプロトタイピングに適用すると、CAD-Tokenizerは指示の追従と生成品質を大幅に改善し、汎用LLMやタスク固有のベースラインを上回る定量的および定性的なパフォーマンスを達成します。
English
Computer-Aided Design (CAD) is a foundational component of industrial
prototyping, where models are defined not by raw coordinates but by
construction sequences such as sketches and extrusions. This sequential
structure enables both efficient prototype initialization and subsequent
editing. Text-guided CAD prototyping, which unifies Text-to-CAD generation and
CAD editing, has the potential to streamline the entire design pipeline.
However, prior work has not explored this setting, largely because standard
large language model (LLM) tokenizers decompose CAD sequences into
natural-language word pieces, failing to capture primitive-level CAD semantics
and hindering attention modules from modeling geometric structure. We
conjecture that a multimodal tokenization strategy, aligned with CAD's
primitive and structural nature, can provide more effective representations. To
this end, we propose CAD-Tokenizer, a framework that represents CAD data with
modality-specific tokens using a sequence-based VQ-VAE with primitive-level
pooling and constrained decoding. This design produces compact, primitive-aware
representations that align with CAD's structural nature. Applied to unified
text-guided CAD prototyping, CAD-Tokenizer significantly improves instruction
following and generation quality, achieving better quantitative and qualitative
performance over both general-purpose LLMs and task-specific baselines.