cadrille: Многомодальная реконструкция CAD с использованием онлайн-обучения с подкреплением
cadrille: Multi-modal CAD Reconstruction with Online Reinforcement Learning
May 28, 2025
Авторы: Maksim Kolodiazhnyi, Denis Tarasov, Dmitrii Zhemchuzhnikov, Alexander Nikulin, Ilya Zisman, Anna Vorontsova, Anton Konushin, Vladislav Kurenkov, Danila Rukhovich
cs.AI
Аннотация
Системы автоматизированного проектирования (САПР) играют ключевую роль в инженерии и производстве, позволяя создавать точные и редактируемые 3D-модели. Использование различных данных, полученных от сенсоров или предоставленных пользователем, в качестве входных данных для реконструкции САПР может сделать доступ к приложениям для проектирования более демократичным. Однако существующие методы обычно сосредоточены на одном типе входных данных, таких как облака точек, изображения или текст, что ограничивает их универсальность и надежность. Используя последние достижения в области моделей, объединяющих зрение и язык (Vision-Language Models, VLM), мы предлагаем многомодальную модель реконструкции САПР, которая одновременно обрабатывает все три типа входных данных. Вдохновленные подходами к обучению крупных языковых моделей (Large Language Models, LLM), мы применяем двухэтапный процесс: контролируемую тонкую настройку (Supervised Fine-Tuning, SFT) на данных, сгенерированных процедурно в большом масштабе, с последующей тонкой настройкой с использованием обучения с подкреплением (Reinforcement Learning, RL) на основе программно полученной обратной связи в реальном времени. Кроме того, мы впервые исследуем применение RL для тонкой настройки LLM в задачах САПР, демонстрируя, что онлайн-алгоритмы RL, такие как Group Relative Preference Optimization (GRPO), превосходят офлайн-альтернативы. На тестовом наборе данных DeepCAD наша модель после SFT превосходит существующие одномодальные подходы одновременно по всем трем типам входных данных. Что еще важнее, после RL-настройки cadrille устанавливает новый рекорд на трех сложных наборах данных, включая реальный.
English
Computer-Aided Design (CAD) plays a central role in engineering and
manufacturing, making it possible to create precise and editable 3D models.
Using a variety of sensor or user-provided data as inputs for CAD
reconstruction can democratize access to design applications. However, existing
methods typically focus on a single input modality, such as point clouds,
images, or text, which limits their generalizability and robustness. Leveraging
recent advances in vision-language models (VLM), we propose a multi-modal CAD
reconstruction model that simultaneously processes all three input modalities.
Inspired by large language model (LLM) training paradigms, we adopt a two-stage
pipeline: supervised fine-tuning (SFT) on large-scale procedurally generated
data, followed by reinforcement learning (RL) fine-tuning using online
feedback, obtained programatically. Furthermore, we are the first to explore RL
fine-tuning of LLMs for CAD tasks demonstrating that online RL algorithms such
as Group Relative Preference Optimization (GRPO) outperform offline
alternatives. In the DeepCAD benchmark, our SFT model outperforms existing
single-modal approaches in all three input modalities simultaneously. More
importantly, after RL fine-tuning, cadrille sets new state-of-the-art on three
challenging datasets, including a real-world one.