Grondslagen en Verbetering van Informatiegehalte en Bruikbaarheid bij Datasetdistillatie
Grounding and Enhancing Informativeness and Utility in Dataset Distillation
January 29, 2026
Auteurs: Shaobo Wang, Yantai Yang, Guo Chen, Peiru Li, Kaixin Li, Yufa Zhou, Zhaorun Chen, Linfeng Zhang
cs.AI
Samenvatting
Dataset Distillation (DD) beoogt het creëren van een compacte dataset uit een grote, real-world dataset. Hoewel recente methoden vaak vertrouwen op heuristische benaderingen om efficiëntie en kwaliteit in evenwicht te brengen, blijft de fundamentele relatie tussen originele en synthetische data onderbelicht. Dit artikel herbeziet kennisdistillatie-gebaseerde datasetdistillatie binnen een solide theoretisch kader. We introduceren de concepten Informativiteit en Utiliteit, die respectievelijk cruciale informatie binnen een sample en essentiële samples in de trainingsset vastleggen. Voortbouwend op deze principes, definiëren we optimale datasetdistillatie wiskundig. Vervolgens presenteren we InfoUtil, een raamwerk dat informativiteit en utiliteit in evenwicht brengt bij het synthetiseren van de gedistilleerde dataset. InfoUtil bevat twee kernelementen: (1) speltheoretische maximalisatie van informativiteit met behulp van Shapley Value-attributie om sleutelinformatie uit samples te extraheren, en (2) principekwestige maximalisatie van utiliteit door selectie van globaal invloedrijke samples gebaseerd op Gradiëntnorm. Deze componenten verzekeren dat de gedistilleerde dataset zowel informatief als utiliteit-geoptimaliseerd is. Experimenten tonen aan dat onze methode een prestatieverbetering van 6,1% bereikt ten opzichte van de vorige state-of-the-art aanpak op de ImageNet-1K dataset met ResNet-18.
English
Dataset Distillation (DD) seeks to create a compact dataset from a large, real-world dataset. While recent methods often rely on heuristic approaches to balance efficiency and quality, the fundamental relationship between original and synthetic data remains underexplored. This paper revisits knowledge distillation-based dataset distillation within a solid theoretical framework. We introduce the concepts of Informativeness and Utility, capturing crucial information within a sample and essential samples in the training set, respectively. Building on these principles, we define optimal dataset distillation mathematically. We then present InfoUtil, a framework that balances informativeness and utility in synthesizing the distilled dataset. InfoUtil incorporates two key components: (1) game-theoretic informativeness maximization using Shapley Value attribution to extract key information from samples, and (2) principled utility maximization by selecting globally influential samples based on Gradient Norm. These components ensure that the distilled dataset is both informative and utility-optimized. Experiments demonstrate that our method achieves a 6.1\% performance improvement over the previous state-of-the-art approach on ImageNet-1K dataset using ResNet-18.