자기 지도 표현 학습을 위한 랜덤 필드 증강 기법
Random Field Augmentations for Self-Supervised Representation Learning
November 7, 2023
저자: Philip Andrew Mansfield, Arash Afkanpour, Warren Richard Morningstar, Karan Singhal
cs.AI
초록
자기 지도 표현 학습은 표현에 인코딩된 불변성을 지정하기 위해 데이터 증강에 크게 의존합니다. 기존 연구에서는 다양한 데이터 증강을 적용하는 것이 다운스트림 성능에 중요하다는 것을 보여주었지만, 증강 기술은 아직 충분히 탐구되지 않았습니다. 본 연구에서는 자기 지도 표현 학습을 위한 이미지 증강을 생성하기 위해 가우시안 랜덤 필드 기반의 새로운 지역 변환 패밀리를 제안합니다. 이러한 변환은 잘 알려진 아핀 및 색상 변환(이동, 회전, 색상 지터 등)을 일반화하며, 변환 매개변수 값을 픽셀마다 다르게 허용함으로써 증강의 공간을 크게 확장합니다. 매개변수는 공간 좌표의 연속 함수로 취급되며, 독립적인 가우시안 랜덤 필드로 모델링됩니다. 실험 결과는 자기 지도 표현 학습을 위한 새로운 변환의 효과를 보여줍니다. 특히, ImageNet 다운스트림 분류에서 기준선 대비 1.7%의 상위 1 정확도 향상을 달성했으며, 분포 외 iNaturalist 다운스트림 분류에서는 3.6%의 향상을 보였습니다. 그러나 새로운 변환의 유연성으로 인해 학습된 표현은 하이퍼파라미터에 민감합니다. 약한 변환은 표현을 개선하지만, 강한 변환은 이미지의 구조를 저하시킬 수 있어, 증강의 다양성과 강도를 균형 있게 조절하는 것이 학습된 표현의 일반화를 개선하는 데 중요함을 확인했습니다.
English
Self-supervised representation learning is heavily dependent on data
augmentations to specify the invariances encoded in representations. Previous
work has shown that applying diverse data augmentations is crucial to
downstream performance, but augmentation techniques remain under-explored. In
this work, we propose a new family of local transformations based on Gaussian
random fields to generate image augmentations for self-supervised
representation learning. These transformations generalize the well-established
affine and color transformations (translation, rotation, color jitter, etc.)
and greatly increase the space of augmentations by allowing transformation
parameter values to vary from pixel to pixel. The parameters are treated as
continuous functions of spatial coordinates, and modeled as independent
Gaussian random fields. Empirical results show the effectiveness of the new
transformations for self-supervised representation learning. Specifically, we
achieve a 1.7% top-1 accuracy improvement over baseline on ImageNet downstream
classification, and a 3.6% improvement on out-of-distribution iNaturalist
downstream classification. However, due to the flexibility of the new
transformations, learned representations are sensitive to hyperparameters.
While mild transformations improve representations, we observe that strong
transformations can degrade the structure of an image, indicating that
balancing the diversity and strength of augmentations is important for
improving generalization of learned representations.