Schwere Labels raus! Datensatzverdichtung mit Aufhellung des Labelraums.

papers.abstract

Die Datensatzkondensation zielt darauf ab, einen groß angelegten Trainingsdatensatz in einen wesentlich kleineren synthetischen Datensatz zu kondensieren, sodass die Trainingsleistung von kondensierten und Originalsätzen in neuronalen Netzwerken ähnlich ist. Obwohl die Anzahl der Trainingsbeispiele erheblich reduziert werden kann, sind aktuelle Spitzenmethoden stark auf enorme Softlabels angewiesen, um zufriedenstellende Leistungen zu erzielen. Als Ergebnis kann der erforderliche Speicherbedarf sogar vergleichbar mit dem Originaldatensatz sein, insbesondere bei groß angelegten Datensätzen. Um dieses Problem zu lösen, schlagen wir statt der Speicherung dieser schweren Labels ein neuartiges Label-Entlastungs-Framework namens HeLlO vor, das auf effektiven Bild-zu-Label-Projektoren abzielt, mit denen synthetische Labels direkt online aus synthetischen Bildern generiert werden können. Konkret nutzen wir zur Konstruktion solcher Projektoren vorhandenes Wissen in Open-Source-Grundlagenmodellen, z. B. CLIP, und führen eine LoRA-ähnliche Feinabstimmungsstrategie ein, um die Kluft zwischen vorab trainierten und Zielverteilungen zu verringern, sodass originale Modelle zur Softlabel-Generierung in eine Gruppe von Matrizen niedriger Rangstufe destilliert werden können. Darüber hinaus wird eine effektive Bildoptimierungsmethode vorgeschlagen, um den potenziellen Fehler zwischen den originalen und destillierten Label-Generatoren weiter zu verringern. Umfangreiche Experimente zeigen, dass wir mit nur etwa 0,003 % des für einen vollständigen Satz von Softlabels erforderlichen Originalspeicherbedarfs vergleichbare Leistungen wie aktuelle Spitzenmethoden zur Datensatzkondensation bei groß angelegten Datensätzen erzielen. Unser Code wird verfügbar sein.

English

Dataset distillation or condensation aims to condense a large-scale training dataset into a much smaller synthetic one such that the training performance of distilled and original sets on neural networks are similar. Although the number of training samples can be reduced substantially, current state-of-the-art methods heavily rely on enormous soft labels to achieve satisfactory performance. As a result, the required storage can be comparable even to original datasets, especially for large-scale ones. To solve this problem, instead of storing these heavy labels, we propose a novel label-lightening framework termed HeLlO aiming at effective image-to-label projectors, with which synthetic labels can be directly generated online from synthetic images. Specifically, to construct such projectors, we leverage prior knowledge in open-source foundation models, e.g., CLIP, and introduce a LoRA-like fine-tuning strategy to mitigate the gap between pre-trained and target distributions, so that original models for soft-label generation can be distilled into a group of low-rank matrices. Moreover, an effective image optimization method is proposed to further mitigate the potential error between the original and distilled label generators. Extensive experiments demonstrate that with only about 0.003% of the original storage required for a complete set of soft labels, we achieve comparable performance to current state-of-the-art dataset distillation methods on large-scale datasets. Our code will be available.

Schwere Labels raus! Datensatzverdichtung mit Aufhellung des Labelraums.

Heavy Labels Out! Dataset Distillation with Label Space Lightening

papers.abstract

Support