ChatPaper.aiChatPaper

cadrille: Ricostruzione CAD multi-modale con apprendimento per rinforzo online

cadrille: Multi-modal CAD Reconstruction with Online Reinforcement Learning

May 28, 2025
Autori: Maksim Kolodiazhnyi, Denis Tarasov, Dmitrii Zhemchuzhnikov, Alexander Nikulin, Ilya Zisman, Anna Vorontsova, Anton Konushin, Vladislav Kurenkov, Danila Rukhovich
cs.AI

Abstract

Il Computer-Aided Design (CAD) svolge un ruolo centrale nell'ingegneria e nella produzione, rendendo possibile la creazione di modelli 3D precisi e modificabili. L'utilizzo di una varietà di dati provenienti da sensori o forniti dall'utente come input per la ricostruzione CAD può democratizzare l'accesso alle applicazioni di progettazione. Tuttavia, i metodi esistenti si concentrano tipicamente su una singola modalità di input, come nuvole di punti, immagini o testo, il che limita la loro generalizzabilità e robustezza. Sfruttando i recenti progressi nei modelli vision-language (VLM), proponiamo un modello di ricostruzione CAD multi-modale che elabora simultaneamente tutte e tre le modalità di input. Ispirati dai paradigmi di addestramento dei grandi modelli linguistici (LLM), adottiamo una pipeline in due fasi: fine-tuning supervisionato (SFT) su dati generati proceduralmente su larga scala, seguito da un fine-tuning con apprendimento per rinforzo (RL) utilizzando feedback online, ottenuto in modo programmatico. Inoltre, siamo i primi a esplorare il fine-tuning RL degli LLM per compiti CAD, dimostrando che algoritmi RL online come il Group Relative Preference Optimization (GRPO) superano le alternative offline. Nel benchmark DeepCAD, il nostro modello SFT supera gli approcci mono-modali esistenti in tutte e tre le modalità di input contemporaneamente. Ancora più importante, dopo il fine-tuning RL, cadrille stabilisce nuovi state-of-the-art su tre dataset impegnativi, inclusi uno del mondo reale.
English
Computer-Aided Design (CAD) plays a central role in engineering and manufacturing, making it possible to create precise and editable 3D models. Using a variety of sensor or user-provided data as inputs for CAD reconstruction can democratize access to design applications. However, existing methods typically focus on a single input modality, such as point clouds, images, or text, which limits their generalizability and robustness. Leveraging recent advances in vision-language models (VLM), we propose a multi-modal CAD reconstruction model that simultaneously processes all three input modalities. Inspired by large language model (LLM) training paradigms, we adopt a two-stage pipeline: supervised fine-tuning (SFT) on large-scale procedurally generated data, followed by reinforcement learning (RL) fine-tuning using online feedback, obtained programatically. Furthermore, we are the first to explore RL fine-tuning of LLMs for CAD tasks demonstrating that online RL algorithms such as Group Relative Preference Optimization (GRPO) outperform offline alternatives. In the DeepCAD benchmark, our SFT model outperforms existing single-modal approaches in all three input modalities simultaneously. More importantly, after RL fine-tuning, cadrille sets new state-of-the-art on three challenging datasets, including a real-world one.
PDF353May 30, 2025