CLIPSym: Explorando a Detecção de Simetria com CLIP
CLIPSym: Delving into Symmetry Detection with CLIP
August 19, 2025
Autores: Tinghan Yang, Md Ashiqur Rahman, Raymond A. Yeh
cs.AI
Resumo
A simetria é uma das pistas geométricas mais fundamentais na visão computacional, e sua detecção tem sido um desafio contínuo. Com os recentes avanços em modelos de visão e linguagem, como o CLIP, investigamos se um modelo CLIP pré-treinado pode auxiliar na detecção de simetria ao aproveitar as pistas adicionais de simetria encontradas nas descrições de imagens naturais. Propomos o CLIPSym, que utiliza os codificadores de imagem e linguagem do CLIP e um decodificador equivariante à rotação baseado em uma combinação de Transformer e G-Convolução para detectar simetrias de rotação e reflexão. Para aproveitar totalmente o codificador de linguagem do CLIP, desenvolvemos uma nova técnica de prompt chamada Agrupamento de Prompts com Consciência Semântica (SAPG), que agrega um conjunto diversificado de prompts frequentes baseados em objetos para integrar melhor as pistas semânticas na detecção de simetria. Empiricamente, mostramos que o CLIPSym supera o estado da arte atual em três conjuntos de dados padrão de detecção de simetria (DENDI, SDRW e LDRS). Por fim, realizamos ablações detalhadas que verificam os benefícios do pré-treinamento do CLIP, do decodificador equivariante proposto e da técnica SAPG. O código está disponível em https://github.com/timyoung2333/CLIPSym.
English
Symmetry is one of the most fundamental geometric cues in computer vision,
and detecting it has been an ongoing challenge. With the recent advances in
vision-language models,~i.e., CLIP, we investigate whether a pre-trained CLIP
model can aid symmetry detection by leveraging the additional symmetry cues
found in the natural image descriptions. We propose CLIPSym, which leverages
CLIP's image and language encoders and a rotation-equivariant decoder based on
a hybrid of Transformer and G-Convolution to detect rotation and reflection
symmetries. To fully utilize CLIP's language encoder, we have developed a novel
prompting technique called Semantic-Aware Prompt Grouping (SAPG), which
aggregates a diverse set of frequent object-based prompts to better integrate
the semantic cues for symmetry detection. Empirically, we show that CLIPSym
outperforms the current state-of-the-art on three standard symmetry detection
datasets (DENDI, SDRW, and LDRS). Finally, we conduct detailed ablations
verifying the benefits of CLIP's pre-training, the proposed equivariant
decoder, and the SAPG technique. The code is available at
https://github.com/timyoung2333/CLIPSym.