ChatPaper.aiChatPaper

Verankerung und Steigerung der Informativität und Nützlichkeit bei der Datensatzkondensation

Grounding and Enhancing Informativeness and Utility in Dataset Distillation

January 29, 2026
papers.authors: Shaobo Wang, Yantai Yang, Guo Chen, Peiru Li, Kaixin Li, Yufa Zhou, Zhaorun Chen, Linfeng Zhang
cs.AI

papers.abstract

Dataset Distillation (DD) zielt darauf ab, einen kompakten Datensatz aus einem großen, realen Datensatz zu erstellen. Während aktuelle Methoden häufig auf heuristischen Ansätzen beruhen, um Effizienz und Qualität abzuwägen, bleibt das grundlegende Verhältnis zwischen Original- und synthetischen Daten untererforscht. Diese Arbeit betrachtet wissensbasiertes Dataset Distillation neu innerhalb eines soliden theoretischen Rahmens. Wir führen die Konzepte der Informativität und Nützlichkeit ein, die jeweils entscheidende Informationen innerhalb einer Stichprobe und essentielle Stichproben im Trainingsdatensatz erfassen. Aufbauend auf diesen Prinzipien definieren wir optimale Datensatzkondensation mathematisch. Anschließend stellen wir InfoUtil vor, einen Rahmen, der Informativität und Nützlichkeit bei der Synthese des kondensierten Datensatzes in Einklang bringt. InfoUtil integriert zwei Schlüsselkomponenten: (1) spieltheoretische Maximierung der Informativität unter Verwendung von Shapley Value-Attribution, um Schlüsselinformationen aus Stichproben zu extrahieren, und (2) prinzipielle Maximierung der Nützlichkeit durch Auswahl global einflussreicher Stichproben basierend auf Gradientennorm. Diese Komponenten stellen sicher, dass der kondensierte Datensatz sowohl informativ als auch nutzenoptimiert ist. Experimente zeigen, dass unsere Methode auf dem ImageNet-1K-Datensatz mit ResNet-18 eine Leistungssteigerung von 6,1 % gegenüber dem vorherigen State-of-the-Art-Ansatz erzielt.
English
Dataset Distillation (DD) seeks to create a compact dataset from a large, real-world dataset. While recent methods often rely on heuristic approaches to balance efficiency and quality, the fundamental relationship between original and synthetic data remains underexplored. This paper revisits knowledge distillation-based dataset distillation within a solid theoretical framework. We introduce the concepts of Informativeness and Utility, capturing crucial information within a sample and essential samples in the training set, respectively. Building on these principles, we define optimal dataset distillation mathematically. We then present InfoUtil, a framework that balances informativeness and utility in synthesizing the distilled dataset. InfoUtil incorporates two key components: (1) game-theoretic informativeness maximization using Shapley Value attribution to extract key information from samples, and (2) principled utility maximization by selecting globally influential samples based on Gradient Norm. These components ensure that the distilled dataset is both informative and utility-optimized. Experiments demonstrate that our method achieves a 6.1\% performance improvement over the previous state-of-the-art approach on ImageNet-1K dataset using ResNet-18.
PDF154February 7, 2026