¡Etiquetas Pesadas Afuera! Destilación de Conjuntos de Datos con Aligeramiento del Espacio de Etiquetas

Resumen

La destilación o condensación de conjuntos de datos tiene como objetivo condensar un conjunto de entrenamiento a gran escala en uno sintético mucho más pequeño de tal manera que el rendimiento de entrenamiento de los conjuntos destilados y originales en redes neuronales sea similar. Aunque el número de muestras de entrenamiento puede reducirse considerablemente, los métodos actuales de vanguardia dependen en gran medida de etiquetas suaves enormes para lograr un rendimiento satisfactorio. Como resultado, el almacenamiento requerido puede ser comparable incluso a los conjuntos de datos originales, especialmente para los de gran escala. Para resolver este problema, en lugar de almacenar estas etiquetas pesadas, proponemos un nuevo marco de aligeramiento de etiquetas denominado HeLlO que tiene como objetivo proyectores efectivos de imagen a etiqueta, con los cuales las etiquetas sintéticas pueden generarse directamente en línea a partir de imágenes sintéticas. Específicamente, para construir dichos proyectores, aprovechamos el conocimiento previo en modelos de base de código abierto, por ejemplo, CLIP, e introducimos una estrategia de ajuste fino similar a LoRA para mitigar la brecha entre las distribuciones pre-entrenadas y objetivo, de modo que los modelos originales para la generación de etiquetas suaves puedan destilarse en un grupo de matrices de rango bajo. Además, se propone un método efectivo de optimización de imágenes para mitigar aún más el error potencial entre los generadores de etiquetas originales y destilados. Experimentos extensos demuestran que con solo aproximadamente el 0.003% del almacenamiento original requerido para un conjunto completo de etiquetas suaves, logramos un rendimiento comparable a los métodos actuales de destilación de conjuntos de datos de vanguardia en conjuntos de datos a gran escala. Nuestro código estará disponible.

English

Dataset distillation or condensation aims to condense a large-scale training dataset into a much smaller synthetic one such that the training performance of distilled and original sets on neural networks are similar. Although the number of training samples can be reduced substantially, current state-of-the-art methods heavily rely on enormous soft labels to achieve satisfactory performance. As a result, the required storage can be comparable even to original datasets, especially for large-scale ones. To solve this problem, instead of storing these heavy labels, we propose a novel label-lightening framework termed HeLlO aiming at effective image-to-label projectors, with which synthetic labels can be directly generated online from synthetic images. Specifically, to construct such projectors, we leverage prior knowledge in open-source foundation models, e.g., CLIP, and introduce a LoRA-like fine-tuning strategy to mitigate the gap between pre-trained and target distributions, so that original models for soft-label generation can be distilled into a group of low-rank matrices. Moreover, an effective image optimization method is proposed to further mitigate the potential error between the original and distilled label generators. Extensive experiments demonstrate that with only about 0.003% of the original storage required for a complete set of soft labels, we achieve comparable performance to current state-of-the-art dataset distillation methods on large-scale datasets. Our code will be available.

¡Etiquetas Pesadas Afuera! Destilación de Conjuntos de Datos con Aligeramiento del Espacio de Etiquetas

Heavy Labels Out! Dataset Distillation with Label Space Lightening

Resumen

Support