ChatPaper.aiChatPaper

CLIPSym: Исследование обнаружения симметрии с использованием CLIP

CLIPSym: Delving into Symmetry Detection with CLIP

August 19, 2025
Авторы: Tinghan Yang, Md Ashiqur Rahman, Raymond A. Yeh
cs.AI

Аннотация

Симметрия является одной из наиболее фундаментальных геометрических характеристик в компьютерном зрении, и её обнаружение остается сложной задачей. С учетом последних достижений в моделях, объединяющих зрение и язык, таких как CLIP, мы исследуем, может ли предобученная модель CLIP помочь в обнаружении симметрии, используя дополнительные признаки симметрии, содержащиеся в описаниях естественных изображений. Мы предлагаем CLIPSym, который использует кодировщики изображений и текста из CLIP, а также ротационно-эквивариантный декодер, основанный на гибриде Transformer и G-свертки, для обнаружения вращательной и зеркальной симметрии. Чтобы полностью задействовать языковой кодировщик CLIP, мы разработали новую технику подсказок, называемую Semantic-Aware Prompt Grouping (SAPG), которая объединяет разнообразный набор частотных подсказок, основанных на объектах, для более эффективной интеграции семантических признаков при обнаружении симметрии. Экспериментально мы показываем, что CLIPSym превосходит современные методы на трех стандартных наборах данных для обнаружения симметрии (DENDI, SDRW и LDRS). Наконец, мы проводим детальные исследования, подтверждающие преимущества предобучения CLIP, предложенного эквивариантного декодера и техники SAPG. Код доступен по адресу https://github.com/timyoung2333/CLIPSym.
English
Symmetry is one of the most fundamental geometric cues in computer vision, and detecting it has been an ongoing challenge. With the recent advances in vision-language models,~i.e., CLIP, we investigate whether a pre-trained CLIP model can aid symmetry detection by leveraging the additional symmetry cues found in the natural image descriptions. We propose CLIPSym, which leverages CLIP's image and language encoders and a rotation-equivariant decoder based on a hybrid of Transformer and G-Convolution to detect rotation and reflection symmetries. To fully utilize CLIP's language encoder, we have developed a novel prompting technique called Semantic-Aware Prompt Grouping (SAPG), which aggregates a diverse set of frequent object-based prompts to better integrate the semantic cues for symmetry detection. Empirically, we show that CLIPSym outperforms the current state-of-the-art on three standard symmetry detection datasets (DENDI, SDRW, and LDRS). Finally, we conduct detailed ablations verifying the benefits of CLIP's pre-training, the proposed equivariant decoder, and the SAPG technique. The code is available at https://github.com/timyoung2333/CLIPSym.
PDF63September 1, 2025