cadrille: Ricostruzione CAD multi-modale con apprendimento per rinforzo online
cadrille: Multi-modal CAD Reconstruction with Online Reinforcement Learning
May 28, 2025
Autori: Maksim Kolodiazhnyi, Denis Tarasov, Dmitrii Zhemchuzhnikov, Alexander Nikulin, Ilya Zisman, Anna Vorontsova, Anton Konushin, Vladislav Kurenkov, Danila Rukhovich
cs.AI
Abstract
Il Computer-Aided Design (CAD) svolge un ruolo centrale nell'ingegneria e nella produzione, rendendo possibile la creazione di modelli 3D precisi e modificabili. L'utilizzo di una varietà di dati provenienti da sensori o forniti dall'utente come input per la ricostruzione CAD può democratizzare l'accesso alle applicazioni di progettazione. Tuttavia, i metodi esistenti si concentrano tipicamente su una singola modalità di input, come nuvole di punti, immagini o testo, il che limita la loro generalizzabilità e robustezza. Sfruttando i recenti progressi nei modelli vision-language (VLM), proponiamo un modello di ricostruzione CAD multi-modale che elabora simultaneamente tutte e tre le modalità di input. Ispirati dai paradigmi di addestramento dei grandi modelli linguistici (LLM), adottiamo una pipeline in due fasi: fine-tuning supervisionato (SFT) su dati generati proceduralmente su larga scala, seguito da un fine-tuning con apprendimento per rinforzo (RL) utilizzando feedback online, ottenuto in modo programmatico. Inoltre, siamo i primi a esplorare il fine-tuning RL degli LLM per compiti CAD, dimostrando che algoritmi RL online come il Group Relative Preference Optimization (GRPO) superano le alternative offline. Nel benchmark DeepCAD, il nostro modello SFT supera gli approcci mono-modali esistenti in tutte e tre le modalità di input contemporaneamente. Ancora più importante, dopo il fine-tuning RL, cadrille stabilisce nuovi state-of-the-art su tre dataset impegnativi, inclusi uno del mondo reale.
English
Computer-Aided Design (CAD) plays a central role in engineering and
manufacturing, making it possible to create precise and editable 3D models.
Using a variety of sensor or user-provided data as inputs for CAD
reconstruction can democratize access to design applications. However, existing
methods typically focus on a single input modality, such as point clouds,
images, or text, which limits their generalizability and robustness. Leveraging
recent advances in vision-language models (VLM), we propose a multi-modal CAD
reconstruction model that simultaneously processes all three input modalities.
Inspired by large language model (LLM) training paradigms, we adopt a two-stage
pipeline: supervised fine-tuning (SFT) on large-scale procedurally generated
data, followed by reinforcement learning (RL) fine-tuning using online
feedback, obtained programatically. Furthermore, we are the first to explore RL
fine-tuning of LLMs for CAD tasks demonstrating that online RL algorithms such
as Group Relative Preference Optimization (GRPO) outperform offline
alternatives. In the DeepCAD benchmark, our SFT model outperforms existing
single-modal approaches in all three input modalities simultaneously. More
importantly, after RL fine-tuning, cadrille sets new state-of-the-art on three
challenging datasets, including a real-world one.