CLIPSym: Esplorazione del Rilevamento della Simmetria con CLIP

Abstract

La simmetria è uno degli indizi geometrici più fondamentali nella visione artificiale, e la sua rilevazione rappresenta una sfida continua. Con i recenti progressi nei modelli visione-linguaggio, come CLIP, abbiamo indagato se un modello CLIP pre-addestrato possa facilitare la rilevazione della simmetria sfruttando gli ulteriori indizi di simmetria presenti nelle descrizioni delle immagini naturali. Proponiamo CLIPSym, che utilizza gli encoder di immagini e linguaggio di CLIP e un decoder rotazione-equivariante basato su un ibrido di Transformer e G-Convoluzione per rilevare simmetrie di rotazione e riflessione. Per sfruttare appieno l'encoder linguistico di CLIP, abbiamo sviluppato una nuova tecnica di prompting chiamata Semantic-Aware Prompt Grouping (SAPG), che aggrega un insieme diversificato di prompt basati su oggetti frequenti per integrare meglio gli indizi semantici nella rilevazione della simmetria. Empiricamente, dimostriamo che CLIPSym supera lo stato dell'arte attuale su tre dataset standard di rilevazione della simmetria (DENDI, SDRW e LDRS). Infine, conduiamo ablazioni dettagliate che verificano i vantaggi del pre-addestramento di CLIP, del decoder equivariante proposto e della tecnica SAPG. Il codice è disponibile all'indirizzo https://github.com/timyoung2333/CLIPSym.

English

Symmetry is one of the most fundamental geometric cues in computer vision, and detecting it has been an ongoing challenge. With the recent advances in vision-language models,~i.e., CLIP, we investigate whether a pre-trained CLIP model can aid symmetry detection by leveraging the additional symmetry cues found in the natural image descriptions. We propose CLIPSym, which leverages CLIP's image and language encoders and a rotation-equivariant decoder based on a hybrid of Transformer and G-Convolution to detect rotation and reflection symmetries. To fully utilize CLIP's language encoder, we have developed a novel prompting technique called Semantic-Aware Prompt Grouping (SAPG), which aggregates a diverse set of frequent object-based prompts to better integrate the semantic cues for symmetry detection. Empirically, we show that CLIPSym outperforms the current state-of-the-art on three standard symmetry detection datasets (DENDI, SDRW, and LDRS). Finally, we conduct detailed ablations verifying the benefits of CLIP's pre-training, the proposed equivariant decoder, and the SAPG technique. The code is available at https://github.com/timyoung2333/CLIPSym.

CLIPSym: Esplorazione del Rilevamento della Simmetria con CLIP

CLIPSym: Delving into Symmetry Detection with CLIP

Abstract

Support