Schwere Labels raus! Datensatzverdichtung mit Aufhellung des Labelraums.
Heavy Labels Out! Dataset Distillation with Label Space Lightening
August 15, 2024
Autoren: Ruonan Yu, Songhua Liu, Zigeng Chen, Jingwen Ye, Xinchao Wang
cs.AI
Zusammenfassung
Die Datensatzkondensation zielt darauf ab, einen groß angelegten Trainingsdatensatz in einen wesentlich kleineren synthetischen Datensatz zu kondensieren, sodass die Trainingsleistung von kondensierten und Originalsätzen in neuronalen Netzwerken ähnlich ist. Obwohl die Anzahl der Trainingsbeispiele erheblich reduziert werden kann, sind aktuelle Spitzenmethoden stark auf enorme Softlabels angewiesen, um zufriedenstellende Leistungen zu erzielen. Als Ergebnis kann der erforderliche Speicherbedarf sogar vergleichbar mit dem Originaldatensatz sein, insbesondere bei groß angelegten Datensätzen. Um dieses Problem zu lösen, schlagen wir statt der Speicherung dieser schweren Labels ein neuartiges Label-Entlastungs-Framework namens HeLlO vor, das auf effektiven Bild-zu-Label-Projektoren abzielt, mit denen synthetische Labels direkt online aus synthetischen Bildern generiert werden können. Konkret nutzen wir zur Konstruktion solcher Projektoren vorhandenes Wissen in Open-Source-Grundlagenmodellen, z. B. CLIP, und führen eine LoRA-ähnliche Feinabstimmungsstrategie ein, um die Kluft zwischen vorab trainierten und Zielverteilungen zu verringern, sodass originale Modelle zur Softlabel-Generierung in eine Gruppe von Matrizen niedriger Rangstufe destilliert werden können. Darüber hinaus wird eine effektive Bildoptimierungsmethode vorgeschlagen, um den potenziellen Fehler zwischen den originalen und destillierten Label-Generatoren weiter zu verringern. Umfangreiche Experimente zeigen, dass wir mit nur etwa 0,003 % des für einen vollständigen Satz von Softlabels erforderlichen Originalspeicherbedarfs vergleichbare Leistungen wie aktuelle Spitzenmethoden zur Datensatzkondensation bei groß angelegten Datensätzen erzielen. Unser Code wird verfügbar sein.
English
Dataset distillation or condensation aims to condense a large-scale training
dataset into a much smaller synthetic one such that the training performance of
distilled and original sets on neural networks are similar. Although the number
of training samples can be reduced substantially, current state-of-the-art
methods heavily rely on enormous soft labels to achieve satisfactory
performance. As a result, the required storage can be comparable even to
original datasets, especially for large-scale ones. To solve this problem,
instead of storing these heavy labels, we propose a novel label-lightening
framework termed HeLlO aiming at effective image-to-label projectors, with
which synthetic labels can be directly generated online from synthetic images.
Specifically, to construct such projectors, we leverage prior knowledge in
open-source foundation models, e.g., CLIP, and introduce a LoRA-like
fine-tuning strategy to mitigate the gap between pre-trained and target
distributions, so that original models for soft-label generation can be
distilled into a group of low-rank matrices. Moreover, an effective image
optimization method is proposed to further mitigate the potential error between
the original and distilled label generators. Extensive experiments demonstrate
that with only about 0.003% of the original storage required for a complete set
of soft labels, we achieve comparable performance to current state-of-the-art
dataset distillation methods on large-scale datasets. Our code will be
available.Summary
AI-Generated Summary