Zero-to-CAD: Síntese Agente de Programas CAD Interpretáveis em Escala de Milhões sem Dados Reais

Resumo

Os modelos de projeto assistido por computador (CAD) são definidos por seu histórico de construção: uma receita paramétrica que codifica a intenção de design. No entanto, os conjuntos de dados 3D em larga escala existentes consistem predominantemente em representações de fronteira (B-Reps) ou malhas, removendo essas informações procedurais críticas. Para enfrentar essa escassez, apresentamos o Zero-to-CAD, uma estrutura escalável para sintetizar sequências de construção de CAD executáveis. Enquadramos a síntese como um problema de busca agentiva: ao incorporar um modelo de linguagem de grande porte (LLM) em um ambiente de CAD orientado por feedback, nosso sistema gera, executa e valida código iterativamente, usando ferramentas e consulta a documentações para promover validade geométrica e diversidade de operações. Essa abordagem agentiva permite a síntese de aproximadamente um milhão de sequências de CAD executáveis, legíveis e editáveis, abrangendo um vocabulário rico de operações além dos fluxos de trabalho de esboço e extrusão. Também disponibilizamos um subconjunto curado de 100.000 modelos de alta qualidade selecionados por sua diversidade geométrica. Para demonstrar a utilidade do conjunto de dados, afinamos um modelo de visão e linguagem em nossos dados sintéticos para reconstruir programas de CAD editáveis a partir de imagens multiviais, superando bases de comparação sólidas, incluindo o GPT-5.2, e inicializando efetivamente as capacidades de geração de sequências sem dados de treinamento com histórico de construção real. O Zero-to-CAD preenche a lacuna entre escala geométrica e interpretabilidade paramétrica, oferecendo um recurso vital para a próxima geração de IA para CAD.

English

Computer-Aided Design (CAD) models are defined by their construction history: a parametric recipe that encodes design intent. However, existing large-scale 3D datasets predominantly consist of boundary representations (B-Reps) or meshes, stripping away this critical procedural information. To address this scarcity, we introduce Zero-to-CAD, a scalable framework for synthesizing executable CAD construction sequences. We frame synthesis as an agentic search problem: by embedding a large language model (LLM) within a feedback-driven CAD environment, our system iteratively generates, executes, and validates code using tools and documentation lookup to promote geometric validity and operation diversity. This agentic approach enables the synthesis of approximately one million executable, readable, editable CAD sequences, covering a rich vocabulary of operations beyond sketch-and-extrude workflows. We also release a curated subset of 100,000 high-quality models selected for geometric diversity. To demonstrate the dataset's utility, we fine-tune a vision-language model on our synthetic data to reconstruct editable CAD programs from multi-view images, outperforming strong baselines, including GPT-5.2, and effectively bootstrapping sequence generation capabilities without real construction-history training data. Zero-to-CAD bridges the gap between geometric scale and parametric interpretability, offering a vital resource for the next generation of CAD AI.

Zero-to-CAD: Síntese Agente de Programas CAD Interpretáveis em Escala de Milhões sem Dados Reais

Zero-to-CAD: Agentic Synthesis of Interpretable CAD Programs at Million-Scale Without Real Data

Resumo

Support