ChatPaper.aiChatPaper

CAD-Tokenizer: Hacia la Prototipación de CAD Basada en Texto mediante Tokenización Específica de Modalidad

CAD-Tokenizer: Towards Text-based CAD Prototyping via Modality-Specific Tokenization

September 25, 2025
Autores: Ruiyu Wang, Shizhao Sun, Weijian Ma, Jiang Bian
cs.AI

Resumen

El Diseño Asistido por Computadora (CAD) es un componente fundamental de la creación de prototipos industriales, donde los modelos no se definen mediante coordenadas en bruto, sino mediante secuencias de construcción como bocetos y extrusiones. Esta estructura secuencial permite tanto una inicialización eficiente de los prototipos como su posterior edición. La creación de prototipos CAD guiada por texto, que unifica la generación de Texto a CAD y la edición de CAD, tiene el potencial de optimizar todo el flujo de diseño. Sin embargo, trabajos anteriores no han explorado este enfoque, en gran parte porque los tokenizadores estándar de los modelos de lenguaje de gran escala (LLM) descomponen las secuencias de CAD en fragmentos de lenguaje natural, lo que no logra capturar la semántica de CAD a nivel de primitivas y dificulta que los módulos de atención modelen la estructura geométrica. Conjeturamos que una estrategia de tokenización multimodal, alineada con la naturaleza primitiva y estructural del CAD, puede proporcionar representaciones más efectivas. Con este fin, proponemos CAD-Tokenizer, un marco que representa los datos de CAD con tokens específicos de cada modalidad utilizando un VQ-VAE basado en secuencias con agrupación a nivel de primitivas y decodificación restringida. Este diseño produce representaciones compactas y conscientes de las primitivas que se alinean con la naturaleza estructural del CAD. Aplicado a la creación de prototipos CAD guiada por texto unificada, CAD-Tokenizer mejora significativamente el seguimiento de instrucciones y la calidad de la generación, logrando un mejor rendimiento cuantitativo y cualitativo en comparación con los LLM de propósito general y las líneas base específicas de la tarea.
English
Computer-Aided Design (CAD) is a foundational component of industrial prototyping, where models are defined not by raw coordinates but by construction sequences such as sketches and extrusions. This sequential structure enables both efficient prototype initialization and subsequent editing. Text-guided CAD prototyping, which unifies Text-to-CAD generation and CAD editing, has the potential to streamline the entire design pipeline. However, prior work has not explored this setting, largely because standard large language model (LLM) tokenizers decompose CAD sequences into natural-language word pieces, failing to capture primitive-level CAD semantics and hindering attention modules from modeling geometric structure. We conjecture that a multimodal tokenization strategy, aligned with CAD's primitive and structural nature, can provide more effective representations. To this end, we propose CAD-Tokenizer, a framework that represents CAD data with modality-specific tokens using a sequence-based VQ-VAE with primitive-level pooling and constrained decoding. This design produces compact, primitive-aware representations that align with CAD's structural nature. Applied to unified text-guided CAD prototyping, CAD-Tokenizer significantly improves instruction following and generation quality, achieving better quantitative and qualitative performance over both general-purpose LLMs and task-specific baselines.
PDF12September 29, 2025