Избавляемся от тяжелых меток! Дистилляция набора данных с облегчением пространства меток.

Аннотация

Сжатие набора данных или конденсация направлены на уплотнение обширного набора данных для обучения в существенно более компактный синтетический набор, чтобы обучающая производительность сжатого и исходного наборов на нейронных сетях была сходной. Хотя количество обучающих образцов может быть значительно сокращено, современные передовые методы тяжело полагаются на огромные мягкие метки для достижения удовлетворительной производительности. В результате необходимое хранилище может быть сравнимо даже с исходными наборами данных, особенно для обширных. Для решения этой проблемы, вместо хранения этих тяжелых меток, мы предлагаем новую рамку с легкими метками, названную HeLlO, направленную на эффективные проекторы изображений-меток, с помощью которых синтетические метки могут быть непосредственно созданы в реальном времени из синтетических изображений. Конкретно, для создания таких проекторов мы используем предварительные знания в моделях фундаментальных открытых исходных кодов, например, CLIP, и вводим стратегию донастройки, подобную LoRA, для смягчения разрыва между предварительно обученными и целевыми распределениями, так чтобы исходные модели для генерации мягких меток могли быть сжаты в группу матриц низкого ранга. Более того, предлагается эффективный метод оптимизации изображения для дальнейшего смягчения потенциальной ошибки между исходными и сжатыми генераторами меток. Обширные эксперименты демонстрируют, что с использованием всего около 0,003% от исходного хранилища, необходимого для полного набора мягких меток, мы достигаем сопоставимой производительности с передовыми методами сжатия наборов данных на обширных наборах данных. Наш код будет доступен.

English

Dataset distillation or condensation aims to condense a large-scale training dataset into a much smaller synthetic one such that the training performance of distilled and original sets on neural networks are similar. Although the number of training samples can be reduced substantially, current state-of-the-art methods heavily rely on enormous soft labels to achieve satisfactory performance. As a result, the required storage can be comparable even to original datasets, especially for large-scale ones. To solve this problem, instead of storing these heavy labels, we propose a novel label-lightening framework termed HeLlO aiming at effective image-to-label projectors, with which synthetic labels can be directly generated online from synthetic images. Specifically, to construct such projectors, we leverage prior knowledge in open-source foundation models, e.g., CLIP, and introduce a LoRA-like fine-tuning strategy to mitigate the gap between pre-trained and target distributions, so that original models for soft-label generation can be distilled into a group of low-rank matrices. Moreover, an effective image optimization method is proposed to further mitigate the potential error between the original and distilled label generators. Extensive experiments demonstrate that with only about 0.003% of the original storage required for a complete set of soft labels, we achieve comparable performance to current state-of-the-art dataset distillation methods on large-scale datasets. Our code will be available.

Избавляемся от тяжелых меток! Дистилляция набора данных с облегчением пространства меток.

Heavy Labels Out! Dataset Distillation with Label Space Lightening

Аннотация

Support