CLIPSym : Exploration de la détection de symétrie avec CLIP
CLIPSym: Delving into Symmetry Detection with CLIP
August 19, 2025
papers.authors: Tinghan Yang, Md Ashiqur Rahman, Raymond A. Yeh
cs.AI
papers.abstract
La symétrie est l'un des indices géométriques les plus fondamentaux en vision par ordinateur, et sa détection constitue un défi permanent. Avec les récents progrès des modèles vision-langage, notamment CLIP, nous étudions si un modèle CLIP pré-entraîné peut faciliter la détection de symétrie en exploitant les indices de symétrie supplémentaires présents dans les descriptions d'images naturelles. Nous proposons CLIPSym, qui exploite les encodeurs d'images et de langage de CLIP ainsi qu'un décodeur équivariant par rotation basé sur un hybride de Transformer et de G-Convolution pour détecter les symétries de rotation et de réflexion. Pour tirer pleinement parti de l'encodeur de langage de CLIP, nous avons développé une nouvelle technique d'invite appelée Semantic-Aware Prompt Grouping (SAPG), qui agrège un ensemble diversifié d'invites fréquentes basées sur des objets afin de mieux intégrer les indices sémantiques pour la détection de symétrie. Empiriquement, nous montrons que CLIPSym surpasse l'état de l'art actuel sur trois ensembles de données standard de détection de symétrie (DENDI, SDRW et LDRS). Enfin, nous réalisons des ablations détaillées vérifiant les avantages du pré-entraînement de CLIP, du décodeur équivariant proposé et de la technique SAPG. Le code est disponible à l'adresse https://github.com/timyoung2333/CLIPSym.
English
Symmetry is one of the most fundamental geometric cues in computer vision,
and detecting it has been an ongoing challenge. With the recent advances in
vision-language models,~i.e., CLIP, we investigate whether a pre-trained CLIP
model can aid symmetry detection by leveraging the additional symmetry cues
found in the natural image descriptions. We propose CLIPSym, which leverages
CLIP's image and language encoders and a rotation-equivariant decoder based on
a hybrid of Transformer and G-Convolution to detect rotation and reflection
symmetries. To fully utilize CLIP's language encoder, we have developed a novel
prompting technique called Semantic-Aware Prompt Grouping (SAPG), which
aggregates a diverse set of frequent object-based prompts to better integrate
the semantic cues for symmetry detection. Empirically, we show that CLIPSym
outperforms the current state-of-the-art on three standard symmetry detection
datasets (DENDI, SDRW, and LDRS). Finally, we conduct detailed ablations
verifying the benefits of CLIP's pre-training, the proposed equivariant
decoder, and the SAPG technique. The code is available at
https://github.com/timyoung2333/CLIPSym.