CLIPSym: Explorando a Detecção de Simetria com CLIP

Resumo

A simetria é uma das pistas geométricas mais fundamentais na visão computacional, e sua detecção tem sido um desafio contínuo. Com os recentes avanços em modelos de visão e linguagem, como o CLIP, investigamos se um modelo CLIP pré-treinado pode auxiliar na detecção de simetria ao aproveitar as pistas adicionais de simetria encontradas nas descrições de imagens naturais. Propomos o CLIPSym, que utiliza os codificadores de imagem e linguagem do CLIP e um decodificador equivariante à rotação baseado em uma combinação de Transformer e G-Convolução para detectar simetrias de rotação e reflexão. Para aproveitar totalmente o codificador de linguagem do CLIP, desenvolvemos uma nova técnica de prompt chamada Agrupamento de Prompts com Consciência Semântica (SAPG), que agrega um conjunto diversificado de prompts frequentes baseados em objetos para integrar melhor as pistas semânticas na detecção de simetria. Empiricamente, mostramos que o CLIPSym supera o estado da arte atual em três conjuntos de dados padrão de detecção de simetria (DENDI, SDRW e LDRS). Por fim, realizamos ablações detalhadas que verificam os benefícios do pré-treinamento do CLIP, do decodificador equivariante proposto e da técnica SAPG. O código está disponível em https://github.com/timyoung2333/CLIPSym.

English

Symmetry is one of the most fundamental geometric cues in computer vision, and detecting it has been an ongoing challenge. With the recent advances in vision-language models,~i.e., CLIP, we investigate whether a pre-trained CLIP model can aid symmetry detection by leveraging the additional symmetry cues found in the natural image descriptions. We propose CLIPSym, which leverages CLIP's image and language encoders and a rotation-equivariant decoder based on a hybrid of Transformer and G-Convolution to detect rotation and reflection symmetries. To fully utilize CLIP's language encoder, we have developed a novel prompting technique called Semantic-Aware Prompt Grouping (SAPG), which aggregates a diverse set of frequent object-based prompts to better integrate the semantic cues for symmetry detection. Empirically, we show that CLIPSym outperforms the current state-of-the-art on three standard symmetry detection datasets (DENDI, SDRW, and LDRS). Finally, we conduct detailed ablations verifying the benefits of CLIP's pre-training, the proposed equivariant decoder, and the SAPG technique. The code is available at https://github.com/timyoung2333/CLIPSym.

CLIPSym: Explorando a Detecção de Simetria com CLIP

CLIPSym: Delving into Symmetry Detection with CLIP

Resumo

Support