ChatPaper.aiChatPaper

CAD-Tokenizer: 모달리티 특화 토큰화를 통한 텍스트 기반 CAD 프로토타이핑

CAD-Tokenizer: Towards Text-based CAD Prototyping via Modality-Specific Tokenization

September 25, 2025
저자: Ruiyu Wang, Shizhao Sun, Weijian Ma, Jiang Bian
cs.AI

초록

컴퓨터 지원 설계(CAD)는 산업 프로토타이핑의 기초적인 구성 요소로, 모델이 원시 좌표가 아닌 스케치와 압출과 같은 구성 시퀀스로 정의됩니다. 이러한 순차적 구조는 프로토타입 초기화와 후속 편집 모두를 효율적으로 가능하게 합니다. 텍스트 기반 CAD 프로토타이핑은 텍스트-투-CAD 생성과 CAD 편집을 통합하여 전체 설계 파이프라인을 간소화할 잠재력을 가지고 있습니다. 그러나 기존 연구에서는 이 설정을 탐구하지 않았는데, 이는 주로 표준 대형 언어 모델(LLM) 토크나이저가 CAD 시퀀스를 자연어 단어 조각으로 분해하여 기본 수준의 CAD 의미를 포착하지 못하고 기하학적 구조를 모델링하는 데 어려움을 겪기 때문입니다. 우리는 CAD의 기본 요소와 구조적 특성에 맞춘 다중 모달 토큰화 전략이 더 효과적인 표현을 제공할 수 있다고 추측합니다. 이를 위해, 우리는 CAD 데이터를 기본 수준 풀링과 제한된 디코딩을 사용한 시퀀스 기반 VQ-VAE로 모달리티별 토큰으로 표현하는 CAD-Tokenizer 프레임워크를 제안합니다. 이 설계는 CAD의 구조적 특성과 일치하는 간결하고 기본 요소를 인식하는 표현을 생성합니다. 통합 텍스트 기반 CAD 프로토타이핑에 적용된 CAD-Tokenizer는 지시 사항 준수와 생성 품질을 크게 개선하여 일반 목적 LLM과 작업 특화 베이스라인 모두보다 더 나은 정량적 및 정성적 성능을 달성합니다.
English
Computer-Aided Design (CAD) is a foundational component of industrial prototyping, where models are defined not by raw coordinates but by construction sequences such as sketches and extrusions. This sequential structure enables both efficient prototype initialization and subsequent editing. Text-guided CAD prototyping, which unifies Text-to-CAD generation and CAD editing, has the potential to streamline the entire design pipeline. However, prior work has not explored this setting, largely because standard large language model (LLM) tokenizers decompose CAD sequences into natural-language word pieces, failing to capture primitive-level CAD semantics and hindering attention modules from modeling geometric structure. We conjecture that a multimodal tokenization strategy, aligned with CAD's primitive and structural nature, can provide more effective representations. To this end, we propose CAD-Tokenizer, a framework that represents CAD data with modality-specific tokens using a sequence-based VQ-VAE with primitive-level pooling and constrained decoding. This design produces compact, primitive-aware representations that align with CAD's structural nature. Applied to unified text-guided CAD prototyping, CAD-Tokenizer significantly improves instruction following and generation quality, achieving better quantitative and qualitative performance over both general-purpose LLMs and task-specific baselines.
PDF12September 29, 2025