データセット蒸留における情報性と有用性の基盤構築と強化
Grounding and Enhancing Informativeness and Utility in Dataset Distillation
January 29, 2026
著者: Shaobo Wang, Yantai Yang, Guo Chen, Peiru Li, Kaixin Li, Yufa Zhou, Zhaorun Chen, Linfeng Zhang
cs.AI
要旨
データセット蒸留(DD)は、大規模な実世界のデータセットからコンパクトなデータセットを作成することを目的としている。近年の手法は効率性と品質のバランスを取るためにヒューリスティックなアプローチに依存することが多いが、元のデータと合成データの間の根本的な関係は未だ十分に探究されていない。本論文は、確固たる理論的枠組みに基づいて、知識蒸留ベースのデータセット蒸留を再検討する。我々は、サンプル内の重要な情報と、訓練セット内の本質的なサンプルをそれぞれ捉える概念である「情報量(Informativeness)」と「有用性(Utility)」を導入する。これらの原理に基づき、最適なデータセット蒸留を数学的に定義する。次に、蒸留データセットの合成において情報量と有用性のバランスを取るフレームワークであるInfoUtilを提案する。InfoUtilは二つの主要な構成要素を含む:(1)シャプレイ値帰属を用いたゲーム理論的な情報量最大化により、サンプルから鍵となる情報を抽出する、(2)勾配ノルムに基づいて大域的に影響力のあるサンプルを選択するという原理に基づいた有用性最大化。これらの構成要素により、蒸留データセットが情報量に富み、かつ有用性が最適化されることが保証される。ImageNet-1KデータセットとResNet-18を用いた実験により、本手法が従来の最先端手法よりも6.1%の性能向上を達成することを実証する。
English
Dataset Distillation (DD) seeks to create a compact dataset from a large, real-world dataset. While recent methods often rely on heuristic approaches to balance efficiency and quality, the fundamental relationship between original and synthetic data remains underexplored. This paper revisits knowledge distillation-based dataset distillation within a solid theoretical framework. We introduce the concepts of Informativeness and Utility, capturing crucial information within a sample and essential samples in the training set, respectively. Building on these principles, we define optimal dataset distillation mathematically. We then present InfoUtil, a framework that balances informativeness and utility in synthesizing the distilled dataset. InfoUtil incorporates two key components: (1) game-theoretic informativeness maximization using Shapley Value attribution to extract key information from samples, and (2) principled utility maximization by selecting globally influential samples based on Gradient Norm. These components ensure that the distilled dataset is both informative and utility-optimized. Experiments demonstrate that our method achieves a 6.1\% performance improvement over the previous state-of-the-art approach on ImageNet-1K dataset using ResNet-18.