ChatPaper.aiChatPaper

CLIPSym: Explorando la detección de simetría con CLIP

CLIPSym: Delving into Symmetry Detection with CLIP

August 19, 2025
Autores: Tinghan Yang, Md Ashiqur Rahman, Raymond A. Yeh
cs.AI

Resumen

La simetría es una de las pistas geométricas más fundamentales en visión por computadora, y su detección ha sido un desafío constante. Con los recientes avances en modelos de visión y lenguaje, como CLIP, investigamos si un modelo CLIP preentrenado puede ayudar en la detección de simetrías aprovechando las pistas adicionales de simetría presentes en las descripciones de imágenes naturales. Proponemos CLIPSym, que aprovecha los codificadores de imagen y lenguaje de CLIP junto con un decodificador rotacionalmente equivariante basado en una combinación de Transformer y G-Convolución para detectar simetrías de rotación y reflexión. Para utilizar plenamente el codificador de lenguaje de CLIP, hemos desarrollado una novedosa técnica de prompting llamada Agrupación de Prompts Semánticamente Conscientes (SAPG), que agrega un conjunto diverso de prompts frecuentes basados en objetos para integrar mejor las pistas semánticas en la detección de simetrías. Empíricamente, demostramos que CLIPSym supera al estado del arte actual en tres conjuntos de datos estándar de detección de simetrías (DENDI, SDRW y LDRS). Finalmente, realizamos ablaciones detalladas que verifican los beneficios del preentrenamiento de CLIP, el decodificador equivariante propuesto y la técnica SAPG. El código está disponible en https://github.com/timyoung2333/CLIPSym.
English
Symmetry is one of the most fundamental geometric cues in computer vision, and detecting it has been an ongoing challenge. With the recent advances in vision-language models,~i.e., CLIP, we investigate whether a pre-trained CLIP model can aid symmetry detection by leveraging the additional symmetry cues found in the natural image descriptions. We propose CLIPSym, which leverages CLIP's image and language encoders and a rotation-equivariant decoder based on a hybrid of Transformer and G-Convolution to detect rotation and reflection symmetries. To fully utilize CLIP's language encoder, we have developed a novel prompting technique called Semantic-Aware Prompt Grouping (SAPG), which aggregates a diverse set of frequent object-based prompts to better integrate the semantic cues for symmetry detection. Empirically, we show that CLIPSym outperforms the current state-of-the-art on three standard symmetry detection datasets (DENDI, SDRW, and LDRS). Finally, we conduct detailed ablations verifying the benefits of CLIP's pre-training, the proposed equivariant decoder, and the SAPG technique. The code is available at https://github.com/timyoung2333/CLIPSym.
PDF63September 1, 2025