Zware Labels Eruit! Datasetdistillatie met Labelruimteverlichting
Heavy Labels Out! Dataset Distillation with Label Space Lightening
August 15, 2024
Auteurs: Ruonan Yu, Songhua Liu, Zigeng Chen, Jingwen Ye, Xinchao Wang
cs.AI
Samenvatting
Dataset-distillatie of -condensatie heeft als doel een grootschalige trainingsdataset te comprimeren tot een veel kleinere synthetische dataset, zodat de trainingsprestaties van de gedistilleerde en originele sets op neurale netwerken vergelijkbaar zijn. Hoewel het aantal trainingsmonsters aanzienlijk kan worden verminderd, zijn de huidige state-of-the-art methoden sterk afhankelijk van enorme soft labels om bevredigende prestaties te bereiken. Als gevolg hiervan kan de benodigde opslag zelfs vergelijkbaar zijn met die van originele datasets, vooral voor grootschalige datasets. Om dit probleem op te lossen, stellen we in plaats van het opslaan van deze zware labels een nieuw label-verlichtingsframework voor, genaamd HeLlO, dat gericht is op effectieve image-to-label projectors, waarmee synthetische labels direct online kunnen worden gegenereerd uit synthetische afbeeldingen. Specifiek maken we, om dergelijke projectors te construeren, gebruik van voorkennis in open-source foundation modellen, zoals CLIP, en introduceren we een LoRA-achtige fine-tuning strategie om de kloof tussen vooraf getrainde en doelverdelingen te verkleinen, zodat originele modellen voor soft-label generatie kunnen worden gedistilleerd in een groep low-rank matrices. Bovendien wordt een effectieve beeldoptimalisatiemethode voorgesteld om de potentiële fout tussen de originele en gedistilleerde labelgeneratoren verder te verminderen. Uitgebreide experimenten tonen aan dat we met slechts ongeveer 0,003% van de originele opslag die nodig is voor een complete set soft labels, vergelijkbare prestaties bereiken als de huidige state-of-the-art dataset-distillatiemethoden op grootschalige datasets. Onze code zal beschikbaar worden gesteld.
English
Dataset distillation or condensation aims to condense a large-scale training
dataset into a much smaller synthetic one such that the training performance of
distilled and original sets on neural networks are similar. Although the number
of training samples can be reduced substantially, current state-of-the-art
methods heavily rely on enormous soft labels to achieve satisfactory
performance. As a result, the required storage can be comparable even to
original datasets, especially for large-scale ones. To solve this problem,
instead of storing these heavy labels, we propose a novel label-lightening
framework termed HeLlO aiming at effective image-to-label projectors, with
which synthetic labels can be directly generated online from synthetic images.
Specifically, to construct such projectors, we leverage prior knowledge in
open-source foundation models, e.g., CLIP, and introduce a LoRA-like
fine-tuning strategy to mitigate the gap between pre-trained and target
distributions, so that original models for soft-label generation can be
distilled into a group of low-rank matrices. Moreover, an effective image
optimization method is proposed to further mitigate the potential error between
the original and distilled label generators. Extensive experiments demonstrate
that with only about 0.003% of the original storage required for a complete set
of soft labels, we achieve comparable performance to current state-of-the-art
dataset distillation methods on large-scale datasets. Our code will be
available.