CLIPSym: Esplorazione del Rilevamento della Simmetria con CLIP
CLIPSym: Delving into Symmetry Detection with CLIP
August 19, 2025
Autori: Tinghan Yang, Md Ashiqur Rahman, Raymond A. Yeh
cs.AI
Abstract
La simmetria è uno degli indizi geometrici più fondamentali nella visione artificiale, e la sua rilevazione rappresenta una sfida continua. Con i recenti progressi nei modelli visione-linguaggio, come CLIP, abbiamo indagato se un modello CLIP pre-addestrato possa facilitare la rilevazione della simmetria sfruttando gli ulteriori indizi di simmetria presenti nelle descrizioni delle immagini naturali. Proponiamo CLIPSym, che utilizza gli encoder di immagini e linguaggio di CLIP e un decoder rotazione-equivariante basato su un ibrido di Transformer e G-Convoluzione per rilevare simmetrie di rotazione e riflessione. Per sfruttare appieno l'encoder linguistico di CLIP, abbiamo sviluppato una nuova tecnica di prompting chiamata Semantic-Aware Prompt Grouping (SAPG), che aggrega un insieme diversificato di prompt basati su oggetti frequenti per integrare meglio gli indizi semantici nella rilevazione della simmetria. Empiricamente, dimostriamo che CLIPSym supera lo stato dell'arte attuale su tre dataset standard di rilevazione della simmetria (DENDI, SDRW e LDRS). Infine, conduiamo ablazioni dettagliate che verificano i vantaggi del pre-addestramento di CLIP, del decoder equivariante proposto e della tecnica SAPG. Il codice è disponibile all'indirizzo https://github.com/timyoung2333/CLIPSym.
English
Symmetry is one of the most fundamental geometric cues in computer vision,
and detecting it has been an ongoing challenge. With the recent advances in
vision-language models,~i.e., CLIP, we investigate whether a pre-trained CLIP
model can aid symmetry detection by leveraging the additional symmetry cues
found in the natural image descriptions. We propose CLIPSym, which leverages
CLIP's image and language encoders and a rotation-equivariant decoder based on
a hybrid of Transformer and G-Convolution to detect rotation and reflection
symmetries. To fully utilize CLIP's language encoder, we have developed a novel
prompting technique called Semantic-Aware Prompt Grouping (SAPG), which
aggregates a diverse set of frequent object-based prompts to better integrate
the semantic cues for symmetry detection. Empirically, we show that CLIPSym
outperforms the current state-of-the-art on three standard symmetry detection
datasets (DENDI, SDRW, and LDRS). Finally, we conduct detailed ablations
verifying the benefits of CLIP's pre-training, the proposed equivariant
decoder, and the SAPG technique. The code is available at
https://github.com/timyoung2333/CLIPSym.