ChatPaper.aiChatPaper

CAD-Tokenizer: Auf dem Weg zu textbasiertem CAD-Prototyping durch modalspezifische Tokenisierung

CAD-Tokenizer: Towards Text-based CAD Prototyping via Modality-Specific Tokenization

September 25, 2025
papers.authors: Ruiyu Wang, Shizhao Sun, Weijian Ma, Jiang Bian
cs.AI

papers.abstract

Computer-Aided Design (CAD) ist ein grundlegender Bestandteil des industriellen Prototypings, bei dem Modelle nicht durch Rohkoordinaten, sondern durch Konstruktionssequenzen wie Skizzen und Extrusionen definiert werden. Diese sequenzielle Struktur ermöglicht sowohl eine effiziente Initialisierung von Prototypen als auch deren nachträgliche Bearbeitung. Textgesteuertes CAD-Prototyping, das Text-zu-CAD-Generierung und CAD-Bearbeitung vereint, hat das Potenzial, den gesamten Designprozess zu optimieren. Bisherige Arbeiten haben diesen Ansatz jedoch nicht untersucht, vor allem weil Standard-Tokenizer für große Sprachmodelle (LLMs) CAD-Sequenzen in natürliche Sprachsegmente zerlegen, wodurch die semantische Bedeutung auf Primitiv-Ebene nicht erfasst wird und die Aufmerksamkeitsmodule daran gehindert werden, geometrische Strukturen zu modellieren. Wir vermuten, dass eine multimodale Tokenisierungsstrategie, die mit der primitiven und strukturellen Natur von CAD übereinstimmt, effektivere Repräsentationen liefern kann. Zu diesem Zweck schlagen wir CAD-Tokenizer vor, ein Framework, das CAD-Daten mit modalitätsspezifischen Token repräsentiert, indem es eine sequenzbasierte VQ-VAE mit Primitiv-Ebenen-Pooling und eingeschränkter Dekodierung verwendet. Dieser Entwurf erzeugt kompakte, primitivbewusste Repräsentationen, die mit der strukturellen Natur von CAD übereinstimmen. Angewandt auf textgesteuertes CAD-Prototyping verbessert CAD-Tokenizer die Befolgung von Anweisungen und die Generierungsqualität signifikant und erzielt sowohl quantitativ als auch qualitativ bessere Ergebnisse im Vergleich zu allgemeinen LLMs und aufgabenbezogenen Baselines.
English
Computer-Aided Design (CAD) is a foundational component of industrial prototyping, where models are defined not by raw coordinates but by construction sequences such as sketches and extrusions. This sequential structure enables both efficient prototype initialization and subsequent editing. Text-guided CAD prototyping, which unifies Text-to-CAD generation and CAD editing, has the potential to streamline the entire design pipeline. However, prior work has not explored this setting, largely because standard large language model (LLM) tokenizers decompose CAD sequences into natural-language word pieces, failing to capture primitive-level CAD semantics and hindering attention modules from modeling geometric structure. We conjecture that a multimodal tokenization strategy, aligned with CAD's primitive and structural nature, can provide more effective representations. To this end, we propose CAD-Tokenizer, a framework that represents CAD data with modality-specific tokens using a sequence-based VQ-VAE with primitive-level pooling and constrained decoding. This design produces compact, primitive-aware representations that align with CAD's structural nature. Applied to unified text-guided CAD prototyping, CAD-Tokenizer significantly improves instruction following and generation quality, achieving better quantitative and qualitative performance over both general-purpose LLMs and task-specific baselines.
PDF12September 29, 2025