BRepCLIP: Preentrenamiento multimodal contrastivo en primitivas BRep para la comprensión de CAD

Resumen

El aprendizaje de representaciones de modelos CAD es un problema en gran medida abierto. Mientras que el aprendizaje de representaciones 3D ha florecido en torno a nubes de puntos y mallas, el formato nativo de CAD —las representaciones de frontera (BReps, por sus siglas en inglés), que codifican superficies paramétricas exactas, curvas y su topología— ha recibido poca atención como sustrato para el aprendizaje de representaciones. Presentamos BRepCLIP, el primer marco que alinea la geometría BRep con incrustaciones de lenguaje e imágenes mediante preentrenamiento contrastivo. Modelamos cada objeto CAD como una secuencia de tokens de caras y aristas con vocabularios discretos separados para la geometría de superficies y curvas, aumentados con descriptores espaciales y semánticos que capturan tipos de superficie (por ejemplo, cilíndrica, toro, NURBS) y primitivas de curvas (por ejemplo, línea, arco, B-spline). Un codificador transformer agrega estos tokens en una incrustación BRep global, alineada con los codificadores de texto e imagen de CLIP mediante un objetivo contrastivo conjunto. BRepCLIP genera incrustaciones más discriminativas y fundamentadas semánticamente que las alternativas existentes basadas en puntos, mejorando la recuperación Top-1 sobre OpenShape en un 40.4%, 22.0% y 23.9% en ABC, CADParser y Automate, respectivamente, y mejorando la clasificación de cero disparos en FabWave en un 15% en la puntuación Top-1. Además, demostramos su utilidad como métrica de similitud consciente de CAD para evaluar la generación de CAD condicionada por texto e imágenes, estableciendo la importancia del preentrenamiento consciente de la estructura para la comprensión multimodal de CAD. La página del proyecto está disponible en https://muhammadusama100.github.io/BrepClip2026/

English

Learning representations of CAD models is a largely open problem. While 3D representation learning has flourished around point clouds and meshes, the native format of CAD - boundary representations BReps, which encodes exact parametric surfaces, curves, and their topology, has received little attention as a representation learning substrate. We introduce BRepCLIP, the first framework to align BRep geometry with language and image embeddings through contrastive pretraining. We model each CAD object as a sequence of face and edge tokens with separate discrete vocabularies for surface and curve geometry, augmented with spatial and semantic descriptors that capture surface types (e.g., cylindrical, torus, NURBS) and curve primitives (e.g., line, arc, B-spline). A transformer encoder aggregates these tokens into a global BRep embedding, aligned with CLIP's text and image encoders via a joint contrastive objective. BRepCLIP generates more discriminative and semantically grounded embeddings than existing point-based alternatives, improving Top-1 retrieval over OpenShape by 40.4%, 22.0%, and 23.9% on ABC, CADParser, and Automate, respectively, and improving zero-shot classification on FabWave by 15% in Top-1 score. We further demonstrate its utility as a CAD-aware similarity metric for evaluating text and image-conditioned CAD generation, establishing the importance of structure-aware pretraining for multimodal CAD understanding. Project page is available at https://muhammadusama100.github.io/BrepClip2026/