데이터셋 증류에서 정보성과 유용성의 기반 강화
Grounding and Enhancing Informativeness and Utility in Dataset Distillation
January 29, 2026
저자: Shaobo Wang, Yantai Yang, Guo Chen, Peiru Li, Kaixin Li, Yufa Zhou, Zhaorun Chen, Linfeng Zhang
cs.AI
초록
데이터셋 증류(DD)는 대규모 실제 데이터셋으로부터 간결한 데이터셋을 생성하는 것을 목표로 합니다. 최근 방법론들은 효율성과 품질의 균형을 위해 휴리스틱 접근법에 의존하는 경우가 많으나, 원본 데이터와 합성 데이터 간의 근본적인 관계는 아직 충분히 탐구되지 않았습니다. 본 논문은 견고한 이론적 체계 내에서 지식 증류 기반 데이터셋 증류를 재조명합니다. 우리는 각각 샘플 내 중요한 정보와 훈련 세트 내 필수 샘플을 포착하는 정보성과 유용성 개념을 도입합니다. 이러한 원칙을 바탕으로 최적의 데이터셋 증류를 수학적으로 정의하며, 증류된 데이터셋 합성 시 정보성과 유용성의 균형을 맞추는 InfoUtil 프레임워크를 제시합니다. InfoUtil은 두 가지 핵심 구성 요소로 이루어집니다: (1) 샘플의 핵심 정보 추출을 위한 샤플리 가치 기반 게임 이론적 정보성 극대화, (2) 그래디언트 노름에 기반한 전역적 영향력을 지닌 샘플 선별을 통한 체계적 유용성 극대화. 이러한 구성 요소들은 증류된 데이터셋이 정보적으로 풍부하면서도 유용성이 최적화되도록 보장합니다. 실험 결과, 우리의 방법은 ResNet-18을 사용한 ImageNet-1K 데이터셋에서 기존 최첨단 접근법 대비 6.1%의 성능 향상을 달성했습니다.
English
Dataset Distillation (DD) seeks to create a compact dataset from a large, real-world dataset. While recent methods often rely on heuristic approaches to balance efficiency and quality, the fundamental relationship between original and synthetic data remains underexplored. This paper revisits knowledge distillation-based dataset distillation within a solid theoretical framework. We introduce the concepts of Informativeness and Utility, capturing crucial information within a sample and essential samples in the training set, respectively. Building on these principles, we define optimal dataset distillation mathematically. We then present InfoUtil, a framework that balances informativeness and utility in synthesizing the distilled dataset. InfoUtil incorporates two key components: (1) game-theoretic informativeness maximization using Shapley Value attribution to extract key information from samples, and (2) principled utility maximization by selecting globally influential samples based on Gradient Norm. These components ensure that the distilled dataset is both informative and utility-optimized. Experiments demonstrate that our method achieves a 6.1\% performance improvement over the previous state-of-the-art approach on ImageNet-1K dataset using ResNet-18.