컨볼루션 세트 트랜스포머
Convolutional Set Transformer
September 26, 2025
저자: Federico Chinello, Giacomo Boracchi
cs.AI
초록
우리는 임의의 크기를 가진 이미지 집합을 처리하기 위해 설계된 새로운 신경망 아키텍처인 Convolutional Set Transformer(CST)를 소개한다. 이러한 이미지 집합은 시각적으로 이질적이지만 공통 카테고리, 장면 또는 개념과 같은 고차원적인 의미를 공유한다. 기존의 집합 입력 네트워크(예: Deep Sets 및 Set Transformer)는 벡터 입력에 제한되어 있으며 3D 이미지 텐서를 직접 처리할 수 없다. 결과적으로, 이러한 네트워크는 일반적으로 CNN과 같은 특징 추출기와 결합되어 이미지를 임베딩으로 인코딩한 후에야 이미지 간의 관계를 모델링할 수 있다. 반면, CST는 3D 이미지 텐서를 직접 처리하며 특징 추출과 문맥 모델링을 동시에 수행함으로써 두 프로세스 간의 시너지를 가능하게 한다. 이 설계는 집합 분류(Set Classification) 및 집합 이상 탐지(Set Anomaly Detection)와 같은 작업에서 우수한 성능을 보이며, Grad-CAM과 같은 CNN 설명 가능성 방법과의 자연스러운 호환성을 제공한다. 이는 불투명한 상태로 남아 있는 경쟁 접근법과는 대조적이다. 마지막으로, CST는 대규모 데이터셋에서 사전 학습될 수 있으며 표준 전이 학습(Transfer Learning) 방식을 통해 새로운 도메인과 작업에 적응할 수 있음을 보여준다. 추가 연구를 지원하기 위해, 우리는 ImageNet에서 사전 학습된 CST 백본인 CST-15를 공개한다(https://github.com/chinefed/convolutional-set-transformer).
English
We introduce the Convolutional Set Transformer (CST), a novel neural
architecture designed to process image sets of arbitrary cardinality that are
visually heterogeneous yet share high-level semantics - such as a common
category, scene, or concept. Existing set-input networks, e.g., Deep Sets and
Set Transformer, are limited to vector inputs and cannot directly handle 3D
image tensors. As a result, they must be cascaded with a feature extractor,
typically a CNN, which encodes images into embeddings before the set-input
network can model inter-image relationships. In contrast, CST operates directly
on 3D image tensors, performing feature extraction and contextual modeling
simultaneously, thereby enabling synergies between the two processes. This
design yields superior performance in tasks such as Set Classification and Set
Anomaly Detection and further provides native compatibility with CNN
explainability methods such as Grad-CAM, unlike competing approaches that
remain opaque. Finally, we show that CSTs can be pre-trained on large-scale
datasets and subsequently adapted to new domains and tasks through standard
Transfer Learning schemes. To support further research, we release CST-15, a
CST backbone pre-trained on ImageNet
(https://github.com/chinefed/convolutional-set-transformer).