ChatPaper.aiChatPaper

Étiquettes lourdes, dehors ! Distillation de jeux de données avec allègement de l'espace des étiquettes

Heavy Labels Out! Dataset Distillation with Label Space Lightening

August 15, 2024
papers.authors: Ruonan Yu, Songhua Liu, Zigeng Chen, Jingwen Ye, Xinchao Wang
cs.AI

papers.abstract

La distillation ou condensation de jeux de données vise à condenser un ensemble d'entraînement à grande échelle en un ensemble synthétique beaucoup plus petit, de sorte que les performances d'entraînement des ensembles distillés et originaux sur les réseaux de neurones soient similaires. Bien que le nombre d'échantillons d'entraînement puisse être considérablement réduit, les méthodes actuelles de pointe reposent fortement sur d'énormes étiquettes douces pour obtenir des performances satisfaisantes. Par conséquent, le stockage requis peut être comparable à celui des jeux de données originaux, en particulier pour les ensembles à grande échelle. Pour résoudre ce problème, au lieu de stocker ces étiquettes lourdes, nous proposons un nouveau cadre d'allègement des étiquettes appelé HeLlO, visant à créer des projecteurs image-étiquette efficaces, avec lesquels les étiquettes synthétiques peuvent être générées directement en ligne à partir d'images synthétiques. Plus précisément, pour construire de tels projecteurs, nous exploitons les connaissances préalables des modèles de base open-source, par exemple CLIP, et introduisons une stratégie de fine-tuning de type LoRA pour réduire l'écart entre les distributions pré-entraînées et cibles, afin que les modèles originaux pour la génération d'étiquettes douces puissent être distillés en un groupe de matrices de faible rang. De plus, une méthode d'optimisation d'image efficace est proposée pour atténuer davantage l'erreur potentielle entre les générateurs d'étiquettes originaux et distillés. Des expériences approfondies démontrent qu'avec seulement environ 0,003 % du stockage original requis pour un ensemble complet d'étiquettes douces, nous obtenons des performances comparables aux méthodes actuelles de pointe en matière de distillation de jeux de données sur des ensembles à grande échelle. Notre code sera disponible.
English
Dataset distillation or condensation aims to condense a large-scale training dataset into a much smaller synthetic one such that the training performance of distilled and original sets on neural networks are similar. Although the number of training samples can be reduced substantially, current state-of-the-art methods heavily rely on enormous soft labels to achieve satisfactory performance. As a result, the required storage can be comparable even to original datasets, especially for large-scale ones. To solve this problem, instead of storing these heavy labels, we propose a novel label-lightening framework termed HeLlO aiming at effective image-to-label projectors, with which synthetic labels can be directly generated online from synthetic images. Specifically, to construct such projectors, we leverage prior knowledge in open-source foundation models, e.g., CLIP, and introduce a LoRA-like fine-tuning strategy to mitigate the gap between pre-trained and target distributions, so that original models for soft-label generation can be distilled into a group of low-rank matrices. Moreover, an effective image optimization method is proposed to further mitigate the potential error between the original and distilled label generators. Extensive experiments demonstrate that with only about 0.003% of the original storage required for a complete set of soft labels, we achieve comparable performance to current state-of-the-art dataset distillation methods on large-scale datasets. Our code will be available.
PDF192November 26, 2024