BRepCLIP: Contrastieve multimodale voortraining op BRep-primitieven voor CAD-begrip

Samenvatting

Het leren van representaties van CAD-modellen is een grotendeels open probleem. Terwijl 3D-representatie leren een hoge vlucht heeft genomen rond puntenwolken en meshes, heeft het native formaat van CAD - grensrepresentaties (BReps), die exacte parametrische oppervlakken, curven en hun topologie coderen, weinig aandacht gekregen als substraat voor representatie leren. We introduceren BRepCLIP, het eerste raamwerk dat BRep-geometrie aligneert met taal- en beeldembeddingen via contrastief vooraf trainen. We modelleren elk CAD-object als een reeks van vlak- en randtokens met aparte discrete vocabulaires voor oppervlak- en curvegeometrie, aangevuld met ruimtelijke en semantische descriptoren die oppervlaktetypen (bijv. cilindrisch, torus, NURBS) en curveprimitieven (bijv. lijn, boog, B-spline) vastleggen. Een transformer-encoder aggregeert deze tokens tot een globale BRep-embedding, die via een gezamenlijke contrastieve doelstelling wordt gealigneerd met de tekst- en beeldencoders van CLIP. BRepCLIP genereert meer discriminerende en semantisch verankerde embeddingen dan de bestaande punt-gebaseerde alternatieven, verbetert de Top-1-retrieval ten opzichte van OpenShape met 40,4%, 22,0% en 23,9% op respectievelijk ABC, CADParser en Automate, en verbetert de zero-shot-classificatie op FabWave met 15% in Top-1-score. We demonstreren verder het nut ervan als een CAD-bewuste gelijkheidsmaatstaf voor het evalueren van tekst- en beeld-geconditioneerde CAD-generatie, en vestigen het belang van structuurbewust vooraf trainen voor multimodaal CAD-begrip. De projectpagina is beschikbaar op https://muhammadusama100.github.io/BrepClip2026/

English

Learning representations of CAD models is a largely open problem. While 3D representation learning has flourished around point clouds and meshes, the native format of CAD - boundary representations BReps, which encodes exact parametric surfaces, curves, and their topology, has received little attention as a representation learning substrate. We introduce BRepCLIP, the first framework to align BRep geometry with language and image embeddings through contrastive pretraining. We model each CAD object as a sequence of face and edge tokens with separate discrete vocabularies for surface and curve geometry, augmented with spatial and semantic descriptors that capture surface types (e.g., cylindrical, torus, NURBS) and curve primitives (e.g., line, arc, B-spline). A transformer encoder aggregates these tokens into a global BRep embedding, aligned with CLIP's text and image encoders via a joint contrastive objective. BRepCLIP generates more discriminative and semantically grounded embeddings than existing point-based alternatives, improving Top-1 retrieval over OpenShape by 40.4%, 22.0%, and 23.9% on ABC, CADParser, and Automate, respectively, and improving zero-shot classification on FabWave by 15% in Top-1 score. We further demonstrate its utility as a CAD-aware similarity metric for evaluating text and image-conditioned CAD generation, establishing the importance of structure-aware pretraining for multimodal CAD understanding. Project page is available at https://muhammadusama100.github.io/BrepClip2026/