重いラベルは不要!ラベル空間の軽量化によるデータセット蒸留
Heavy Labels Out! Dataset Distillation with Label Space Lightening
August 15, 2024
著者: Ruonan Yu, Songhua Liu, Zigeng Chen, Jingwen Ye, Xinchao Wang
cs.AI
要旨
データセット蒸留または凝縮は、大規模なトレーニングデータセットをはるかに小さな合成データセットに凝縮し、ニューラルネットワークにおける蒸留データセットと元のデータセットのトレーニング性能が類似することを目指すものです。トレーニングサンプルの数を大幅に削減できる一方で、現在の最先端の手法は、満足のいく性能を達成するために膨大なソフトラベルに依存しています。その結果、特に大規模なデータセットでは、必要なストレージが元のデータセットと同等になることがあります。この問題を解決するために、これらの重いラベルを保存する代わりに、合成ラベルを合成画像から直接オンラインで生成できる効果的な画像からラベルへのプロジェクターを目指す、HeLlOと呼ばれる新しいラベル軽量化フレームワークを提案します。具体的には、そのようなプロジェクターを構築するために、CLIPなどのオープンソースの基盤モデルの事前知識を活用し、事前学習された分布とターゲット分布のギャップを緩和するためにLoRAのような微調整戦略を導入します。これにより、ソフトラベル生成のための元のモデルを低ランク行列のグループに蒸留することができます。さらに、元のラベル生成器と蒸留ラベル生成器の間の潜在的なエラーをさらに緩和するための効果的な画像最適化手法を提案します。大規模なデータセットにおいて、完全なソフトラベルセットに必要なストレージの約0.003%のみで、現在の最先端のデータセット蒸留手法と同等の性能を達成することを示す広範な実験を行いました。私たちのコードは公開されます。
English
Dataset distillation or condensation aims to condense a large-scale training
dataset into a much smaller synthetic one such that the training performance of
distilled and original sets on neural networks are similar. Although the number
of training samples can be reduced substantially, current state-of-the-art
methods heavily rely on enormous soft labels to achieve satisfactory
performance. As a result, the required storage can be comparable even to
original datasets, especially for large-scale ones. To solve this problem,
instead of storing these heavy labels, we propose a novel label-lightening
framework termed HeLlO aiming at effective image-to-label projectors, with
which synthetic labels can be directly generated online from synthetic images.
Specifically, to construct such projectors, we leverage prior knowledge in
open-source foundation models, e.g., CLIP, and introduce a LoRA-like
fine-tuning strategy to mitigate the gap between pre-trained and target
distributions, so that original models for soft-label generation can be
distilled into a group of low-rank matrices. Moreover, an effective image
optimization method is proposed to further mitigate the potential error between
the original and distilled label generators. Extensive experiments demonstrate
that with only about 0.003% of the original storage required for a complete set
of soft labels, we achieve comparable performance to current state-of-the-art
dataset distillation methods on large-scale datasets. Our code will be
available.Summary
AI-Generated Summary