무거운 라벨 아웃! 라벨 공간 가벼워지는 데이터셋 증류
Heavy Labels Out! Dataset Distillation with Label Space Lightening
August 15, 2024
저자: Ruonan Yu, Songhua Liu, Zigeng Chen, Jingwen Ye, Xinchao Wang
cs.AI
초록
데이터 집약 또는 요약은 대규모 훈련 데이터셋을 훈련 성능이 유사한 신경망에 대해 원본 데이터셋과 유사한 훈련 성능을 갖도록 훨씬 작은 합성 데이터셋으로 압축하는 것을 목표로 합니다. 훈련 샘플 수를 상당히 줄일 수 있지만, 현재의 최첨단 방법은 만족스러운 성능을 달성하기 위해 거대한 소프트 라벨에 크게 의존합니다. 결과적으로 필요한 저장 공간은 특히 대규모 데이터셋의 경우 원본 데이터셋과 비교해 상당할 수 있습니다. 이 문제를 해결하기 위해 이러한 무거운 라벨을 저장하는 대신, 우리는 HeLlO라는 새로운 라벨 경량화 프레임워크를 제안합니다. 이 프레임워크는 효과적인 이미지-라벨 프로젝터를 목표로 하며, 이를 통해 합성 이미지에서 직접 합성 라벨을 온라인으로 생성할 수 있습니다. 구체적으로 이러한 프로젝터를 구축하기 위해 우리는 CLIP와 같은 오픈 소스 기반 모델에서 사전 지식을 활용하고, 사전 훈련된 모델과 대상 분포 간의 갭을 완화하기 위해 LoRA와 유사한 미세 조정 전략을 도입하여 소프트 라벨 생성을 위한 원본 모델을 저랭크 행렬 그룹으로 압축합니다. 또한, 원본과 압축된 라벨 생성기 간의 잠재적 오차를 더 완화하기 위해 효과적인 이미지 최적화 방법을 제안합니다. 광범위한 실험 결과, 소프트 라벨의 완전한 세트에 필요한 원본 저장 공간의 약 0.003%만 사용하여 대규모 데이터셋에 대한 현재 최첨단 데이터 집약 방법과 유사한 성능을 달성할 수 있음을 보여줍니다. 우리의 코드는 곧 공개될 예정입니다.
English
Dataset distillation or condensation aims to condense a large-scale training
dataset into a much smaller synthetic one such that the training performance of
distilled and original sets on neural networks are similar. Although the number
of training samples can be reduced substantially, current state-of-the-art
methods heavily rely on enormous soft labels to achieve satisfactory
performance. As a result, the required storage can be comparable even to
original datasets, especially for large-scale ones. To solve this problem,
instead of storing these heavy labels, we propose a novel label-lightening
framework termed HeLlO aiming at effective image-to-label projectors, with
which synthetic labels can be directly generated online from synthetic images.
Specifically, to construct such projectors, we leverage prior knowledge in
open-source foundation models, e.g., CLIP, and introduce a LoRA-like
fine-tuning strategy to mitigate the gap between pre-trained and target
distributions, so that original models for soft-label generation can be
distilled into a group of low-rank matrices. Moreover, an effective image
optimization method is proposed to further mitigate the potential error between
the original and distilled label generators. Extensive experiments demonstrate
that with only about 0.003% of the original storage required for a complete set
of soft labels, we achieve comparable performance to current state-of-the-art
dataset distillation methods on large-scale datasets. Our code will be
available.Summary
AI-Generated Summary