BRepCLIP : Préentraînement multimodal contrastif sur des primitives BRep pour la compréhension de la CAO

Résumé

L'apprentissage de représentations de modèles CAO est un problème largement ouvert. Alors que l'apprentissage de représentations 3D s'est développé autour des nuages de points et des maillages, le format natif de la CAO – les représentations de frontière (BReps), qui encodent les surfaces paramétriques exactes, les courbes et leur topologie – a reçu peu d'attention en tant que substrat pour l'apprentissage de représentations. Nous présentons BRepCLIP, le premier cadre alignant la géométrie BRep avec des plongements linguistiques et d'images via un pré-entraînement contrastif. Nous modélisons chaque objet CAO comme une séquence de tokens de faces et d'arêtes avec des vocabulaires discrets séparés pour la géométrie des surfaces et des courbes, enrichis de descripteurs spatiaux et sémantiques qui capturent les types de surfaces (par exemple, cylindrique, torique, NURBS) et les primitives de courbes (par exemple, ligne, arc, B-spline). Un encodeur transformer agrège ces tokens en un plongement BRep global, aligné avec les encodeurs de texte et d'images de CLIP via un objectif contrastif conjoint. BRepCLIP génère des plongements plus discriminants et sémantiquement fondés que les alternatives existantes basées sur les points, améliorant le rappel Top-1 par rapport à OpenShape de 40,4 %, 22,0 % et 23,9 % sur ABC, CADParser et Automate respectivement, et améliorant la classification zero-shot sur FabWave de 15 % en score Top-1. Nous démontrons également son utilité en tant que métrique de similarité consciente de la CAO pour évaluer la génération de CAO conditionnée par du texte et des images, établissant ainsi l'importance du pré-entraînement structurellement conscient pour la compréhension multimodale de la CAO. La page du projet est disponible à l'adresse https://muhammadusama100.github.io/BrepClip2026/.

English

Learning representations of CAD models is a largely open problem. While 3D representation learning has flourished around point clouds and meshes, the native format of CAD - boundary representations BReps, which encodes exact parametric surfaces, curves, and their topology, has received little attention as a representation learning substrate. We introduce BRepCLIP, the first framework to align BRep geometry with language and image embeddings through contrastive pretraining. We model each CAD object as a sequence of face and edge tokens with separate discrete vocabularies for surface and curve geometry, augmented with spatial and semantic descriptors that capture surface types (e.g., cylindrical, torus, NURBS) and curve primitives (e.g., line, arc, B-spline). A transformer encoder aggregates these tokens into a global BRep embedding, aligned with CLIP's text and image encoders via a joint contrastive objective. BRepCLIP generates more discriminative and semantically grounded embeddings than existing point-based alternatives, improving Top-1 retrieval over OpenShape by 40.4%, 22.0%, and 23.9% on ABC, CADParser, and Automate, respectively, and improving zero-shot classification on FabWave by 15% in Top-1 score. We further demonstrate its utility as a CAD-aware similarity metric for evaluating text and image-conditioned CAD generation, establishing the importance of structure-aware pretraining for multimodal CAD understanding. Project page is available at https://muhammadusama100.github.io/BrepClip2026/