Редактор CAD: Фреймворк "Найти-затем-заполнить" с автоматизированным синтезом обучающих данных для редактирования CAD на основе текста.

Аннотация

Система компьютерного проектирования (Computer Aided Design, CAD) является неотъемлемой в различных отраслях. Редактирование CAD на основе текста, которое автоматизирует модификацию CAD-моделей на основе текстовых инструкций, имеет большой потенциал, но остается недостаточно исследованным. Существующие методы в основном сосредотачиваются на генерации вариаций дизайна или создании CAD на основе текста, либо не обеспечивают поддержку управления на основе текста, либо игнорируют существующие CAD-модели как ограничения. Мы представляем CAD-Editor, первую платформу для редактирования CAD на основе текста. Для решения проблемы требования тройных данных с точным соответствием для обучения мы предлагаем автоматизированную конвейерную синтезацию данных. Этот конвейер использует модели вариации дизайна для генерации пар оригинальных и отредактированных CAD-моделей и использует большие модели видение-язык (Large Vision-Language Models, LVLMs) для обобщения их различий в инструкции по редактированию. Для решения сложной природы редактирования CAD на основе текста мы предлагаем рамочную модель "найти-заполнить", которая декомпозирует задачу на две узконаправленные подзадачи: поиск областей, требующих модификации, и заполнение этих областей соответствующими изменениями. Большие языковые модели (Large Language Models, LLMs) служат основой для обеих подзадач, используя свои возможности в понимании естественного языка и знании CAD. Эксперименты показывают, что CAD-Editor достигает превосходной производительности как количественно, так и качественно.

English

Computer Aided Design (CAD) is indispensable across various industries. Text-based CAD editing, which automates the modification of CAD models based on textual instructions, holds great potential but remains underexplored. Existing methods primarily focus on design variation generation or text-based CAD generation, either lacking support for text-based control or neglecting existing CAD models as constraints. We introduce CAD-Editor, the first framework for text-based CAD editing. To address the challenge of demanding triplet data with accurate correspondence for training, we propose an automated data synthesis pipeline. This pipeline utilizes design variation models to generate pairs of original and edited CAD models and employs Large Vision-Language Models (LVLMs) to summarize their differences into editing instructions. To tackle the composite nature of text-based CAD editing, we propose a locate-then-infill framework that decomposes the task into two focused sub-tasks: locating regions requiring modification and infilling these regions with appropriate edits. Large Language Models (LLMs) serve as the backbone for both sub-tasks, leveraging their capabilities in natural language understanding and CAD knowledge. Experiments show that CAD-Editor achieves superior performance both quantitatively and qualitatively.

Редактор CAD: Фреймворк "Найти-затем-заполнить" с автоматизированным синтезом обучающих данных для редактирования CAD на основе текста.

CAD-Editor: A Locate-then-Infill Framework with Automated Training Data Synthesis for Text-Based CAD Editing

Аннотация

Support