ChatPaper.aiChatPaper

CAD-Tokenizer: Rumo à Prototipagem de CAD Baseada em Texto via Tokenização Específica por Modalidade

CAD-Tokenizer: Towards Text-based CAD Prototyping via Modality-Specific Tokenization

September 25, 2025
Autores: Ruiyu Wang, Shizhao Sun, Weijian Ma, Jiang Bian
cs.AI

Resumo

O Design Assistido por Computador (CAD) é um componente fundamental da prototipagem industrial, onde os modelos são definidos não por coordenadas brutas, mas por sequências de construção, como esboços e extrusões. Essa estrutura sequencial permite tanto a inicialização eficiente de protótipos quanto a edição subsequente. A prototipagem de CAD guiada por texto, que unifica a geração de Texto para CAD e a edição de CAD, tem o potencial de simplificar todo o pipeline de design. No entanto, trabalhos anteriores não exploraram esse cenário, em grande parte porque os tokenizadores padrão de modelos de linguagem de grande escala (LLM) decompõem sequências de CAD em partes de palavras de linguagem natural, falhando em capturar a semântica de CAD em nível primitivo e impedindo que módulos de atenção modelem a estrutura geométrica. Nós conjecturamos que uma estratégia de tokenização multimodal, alinhada com a natureza primitiva e estrutural do CAD, pode fornecer representações mais eficazes. Para isso, propomos o CAD-Tokenizer, um framework que representa dados de CAD com tokens específicos de modalidade usando um VQ-VAE baseado em sequência com pooling em nível primitivo e decodificação restrita. Esse design produz representações compactas e conscientes de primitivas que se alinham com a natureza estrutural do CAD. Aplicado à prototipagem de CAD guiada por texto unificada, o CAD-Tokenizer melhora significativamente o seguimento de instruções e a qualidade de geração, alcançando melhor desempenho quantitativo e qualitativo em comparação com LLMs de propósito geral e baselines específicas para a tarefa.
English
Computer-Aided Design (CAD) is a foundational component of industrial prototyping, where models are defined not by raw coordinates but by construction sequences such as sketches and extrusions. This sequential structure enables both efficient prototype initialization and subsequent editing. Text-guided CAD prototyping, which unifies Text-to-CAD generation and CAD editing, has the potential to streamline the entire design pipeline. However, prior work has not explored this setting, largely because standard large language model (LLM) tokenizers decompose CAD sequences into natural-language word pieces, failing to capture primitive-level CAD semantics and hindering attention modules from modeling geometric structure. We conjecture that a multimodal tokenization strategy, aligned with CAD's primitive and structural nature, can provide more effective representations. To this end, we propose CAD-Tokenizer, a framework that represents CAD data with modality-specific tokens using a sequence-based VQ-VAE with primitive-level pooling and constrained decoding. This design produces compact, primitive-aware representations that align with CAD's structural nature. Applied to unified text-guided CAD prototyping, CAD-Tokenizer significantly improves instruction following and generation quality, achieving better quantitative and qualitative performance over both general-purpose LLMs and task-specific baselines.
PDF32September 29, 2025