Zero-to-CAD: Sintesi Agente di Programmi CAD Interpretabili su Scala Milionaria Senza Dati Reali

Abstract

I modelli di progettazione assistita da computer (CAD) sono definiti dalla loro cronologia di costruzione: una ricetta parametrica che codifica l'intento progettuale. Tuttavia, i dataset 3D su larga scala esistenti sono composti prevalentemente da rappresentazioni di confine (B-Rep) o mesh, privandoli di queste fondamentali informazioni procedurali. Per affrontare questa carenza, introduciamo Zero-to-CAD, un framework scalabile per la sintesi di sequenze di costruzione CAD eseguibili. Inquadriamo la sintesi come un problema di ricerca agentica: integrando un grande modello linguistico (LLM) in un ambiente CAD guidato dal feedback, il nostro sistema genera, esegue e convalida iterativamente del codice, utilizzando strumenti e ricerche nella documentazione per promuovere la validità geometrica e la diversità delle operazioni. Questo approccio agentico consente la sintesi di circa un milione di sequenze CAD eseguibili, leggibili e modificabili, che coprono un ricco vocabolario di operazioni che vanno oltre i flussi di lavoro basati su schizzo ed estrusione. Rilasciamo anche un subset curato di 100.000 modelli di alta qualità selezionati per la loro diversità geometrica. Per dimostrare l'utilità del dataset, addestriamo un modello visione-linguaggio sui nostri dati sintetici per ricostruire programmi CAD modificabili a partire da immagini multi-vista, superando baseline solide, incluso GPT-5.2, e avviando efficacemente le capacità di generazione di sequenze senza dati di addestramento reali sulla cronologia di costruzione. Zero-to-CAD colma il divario tra scala geometrica e interpretabilità parametrica, offrendo una risorsa vitale per la prossima generazione di intelligenza artificiale per il CAD.

English

Computer-Aided Design (CAD) models are defined by their construction history: a parametric recipe that encodes design intent. However, existing large-scale 3D datasets predominantly consist of boundary representations (B-Reps) or meshes, stripping away this critical procedural information. To address this scarcity, we introduce Zero-to-CAD, a scalable framework for synthesizing executable CAD construction sequences. We frame synthesis as an agentic search problem: by embedding a large language model (LLM) within a feedback-driven CAD environment, our system iteratively generates, executes, and validates code using tools and documentation lookup to promote geometric validity and operation diversity. This agentic approach enables the synthesis of approximately one million executable, readable, editable CAD sequences, covering a rich vocabulary of operations beyond sketch-and-extrude workflows. We also release a curated subset of 100,000 high-quality models selected for geometric diversity. To demonstrate the dataset's utility, we fine-tune a vision-language model on our synthetic data to reconstruct editable CAD programs from multi-view images, outperforming strong baselines, including GPT-5.2, and effectively bootstrapping sequence generation capabilities without real construction-history training data. Zero-to-CAD bridges the gap between geometric scale and parametric interpretability, offering a vital resource for the next generation of CAD AI.

Zero-to-CAD: Sintesi Agente di Programmi CAD Interpretabili su Scala Milionaria Senza Dati Reali

Zero-to-CAD: Agentic Synthesis of Interpretable CAD Programs at Million-Scale Without Real Data

Abstract

Support