CLIPSym: Erforschung der Symmetrieerkennung mit CLIP
CLIPSym: Delving into Symmetry Detection with CLIP
August 19, 2025
papers.authors: Tinghan Yang, Md Ashiqur Rahman, Raymond A. Yeh
cs.AI
papers.abstract
Symmetrie ist einer der grundlegendsten geometrischen Hinweise in der Computer Vision, und ihre Erkennung stellt eine fortwährende Herausforderung dar. Mit den jüngsten Fortschritten in Vision-Language-Modellen, wie z.B. CLIP, untersuchen wir, ob ein vortrainiertes CLIP-Modell die Symmetrieerkennung unterstützen kann, indem es die zusätzlichen Symmetriehinweise nutzt, die in den natürlichen Bildbeschreibungen enthalten sind. Wir stellen CLIPSym vor, das die Bild- und Sprach-Encoder von CLIP sowie einen rotationsäquivarianten Decoder, basierend auf einer Kombination aus Transformer und G-Convolution, nutzt, um Rotations- und Reflexionssymmetrien zu erkennen. Um den Sprach-Encoder von CLIP vollständig zu nutzen, haben wir eine neuartige Prompting-Technik entwickelt, die als Semantic-Aware Prompt Grouping (SAPG) bezeichnet wird. Diese Technik aggregiert eine vielfältige Sammlung von häufigen objektbasierten Prompts, um die semantischen Hinweise für die Symmetrieerkennung besser zu integrieren. Empirisch zeigen wir, dass CLIPSym den aktuellen Stand der Technik auf drei Standarddatensätzen zur Symmetrieerkennung (DENDI, SDRW und LDRS) übertrifft. Abschließend führen wir detaillierte Ablationen durch, die die Vorteile des Vortrainings von CLIP, des vorgeschlagenen äquivarianten Decoders und der SAPG-Technik bestätigen. Der Code ist verfügbar unter https://github.com/timyoung2333/CLIPSym.
English
Symmetry is one of the most fundamental geometric cues in computer vision,
and detecting it has been an ongoing challenge. With the recent advances in
vision-language models,~i.e., CLIP, we investigate whether a pre-trained CLIP
model can aid symmetry detection by leveraging the additional symmetry cues
found in the natural image descriptions. We propose CLIPSym, which leverages
CLIP's image and language encoders and a rotation-equivariant decoder based on
a hybrid of Transformer and G-Convolution to detect rotation and reflection
symmetries. To fully utilize CLIP's language encoder, we have developed a novel
prompting technique called Semantic-Aware Prompt Grouping (SAPG), which
aggregates a diverse set of frequent object-based prompts to better integrate
the semantic cues for symmetry detection. Empirically, we show that CLIPSym
outperforms the current state-of-the-art on three standard symmetry detection
datasets (DENDI, SDRW, and LDRS). Finally, we conduct detailed ablations
verifying the benefits of CLIP's pre-training, the proposed equivariant
decoder, and the SAPG technique. The code is available at
https://github.com/timyoung2333/CLIPSym.