CLIPSym: Een verdieping in symmetriedetectie met CLIP
CLIPSym: Delving into Symmetry Detection with CLIP
August 19, 2025
Auteurs: Tinghan Yang, Md Ashiqur Rahman, Raymond A. Yeh
cs.AI
Samenvatting
Symmetrie is een van de meest fundamentele geometrische aanwijzingen in computervisie, en het detecteren ervan is een voortdurende uitdaging geweest. Met de recente vooruitgang in vision-language modellen, zoals CLIP, onderzoeken we of een vooraf getraind CLIP-model kan bijdragen aan symmetriedetectie door gebruik te maken van de extra symmetrie-aanwijzingen die worden gevonden in natuurlijke beeldbeschrijvingen. We stellen CLIPSym voor, dat gebruikmaakt van CLIP's beeld- en taalencoders en een rotatie-equivariante decoder gebaseerd op een hybride van Transformer en G-Convolutie om rotatie- en reflectiesymmetrieën te detecteren. Om CLIP's taalencoder volledig te benutten, hebben we een nieuwe promptingtechniek ontwikkeld genaamd Semantic-Aware Prompt Grouping (SAPG), die een diverse set van frequente objectgebaseerde prompts samenvoegt om de semantische aanwijzingen voor symmetriedetectie beter te integreren. Empirisch tonen we aan dat CLIPSym de huidige state-of-the-art overtreft op drie standaard symmetriedetectie-datasets (DENDI, SDRW en LDRS). Ten slotte voeren we gedetailleerde ablatie-experimenten uit die de voordelen van CLIP's voorafgaande training, de voorgestelde equivariante decoder en de SAPG-techniek verifiëren. De code is beschikbaar op https://github.com/timyoung2333/CLIPSym.
English
Symmetry is one of the most fundamental geometric cues in computer vision,
and detecting it has been an ongoing challenge. With the recent advances in
vision-language models,~i.e., CLIP, we investigate whether a pre-trained CLIP
model can aid symmetry detection by leveraging the additional symmetry cues
found in the natural image descriptions. We propose CLIPSym, which leverages
CLIP's image and language encoders and a rotation-equivariant decoder based on
a hybrid of Transformer and G-Convolution to detect rotation and reflection
symmetries. To fully utilize CLIP's language encoder, we have developed a novel
prompting technique called Semantic-Aware Prompt Grouping (SAPG), which
aggregates a diverse set of frequent object-based prompts to better integrate
the semantic cues for symmetry detection. Empirically, we show that CLIPSym
outperforms the current state-of-the-art on three standard symmetry detection
datasets (DENDI, SDRW, and LDRS). Finally, we conduct detailed ablations
verifying the benefits of CLIP's pre-training, the proposed equivariant
decoder, and the SAPG technique. The code is available at
https://github.com/timyoung2333/CLIPSym.