ChatPaper.aiChatPaper

ICon: 자동 데이터 선택을 위한 인-컨텍스트 기여도 분석

ICon: In-Context Contribution for Automatic Data Selection

May 8, 2025
저자: Yixin Yang, Qingxiu Dong, Linli Yao, Fangwei Zhu, Zhifang Sui
cs.AI

초록

명령어 튜닝을 위한 데이터 선택은 대규모 언어 모델(LLM)의 성능 향상과 훈련 비용 절감에 필수적입니다. 그러나 기존의 자동화된 선택 방법은 계산 비용이 높은 그래디언트 기반 측정법이나 수동으로 설계된 휴리스틱에 의존하며, 이는 데이터의 내재적 속성을 충분히 활용하지 못할 수 있습니다. 본 논문에서는 그래디언트 계산이나 수동 지표 설계 없이 샘플 기여도를 측정하기 위해, 인-컨텍스트 학습(ICL)의 암묵적 미세 조정 특성을 활용한 새로운 그래디언트 프리 방법인 In-context Learning for Contribution Measurement(ICon)을 제안합니다. ICon은 그래디언트 기반 방법에 비해 계산 효율적이며, 휴리스틱 기반 접근법에 내재된 인간의 귀납적 편향을 줄여줍니다. ICon은 세 가지 구성 요소로 이루어져 있으며, ICL을 통한 암묵적 학습 하에서의 성능 변화를 평가하여 고기여도 데이터를 식별합니다. 3개의 LLM과 12개의 벤치마크, 5개의 쌍별 평가 세트에 대한 광범위한 실험을 통해 ICon의 효과를 입증했습니다. 특히, LLaMA3.1-8B에서 ICon으로 선택된 데이터의 15%로 훈련된 모델은 전체 데이터셋을 사용한 경우보다 5.42% 포인트 더 높은 성능을 보였으며, 널리 사용되는 선택 방법 중 최고 성능보다도 2.06% 포인트 더 우수했습니다. 또한 ICon이 선택한 고기여도 샘플을 분석한 결과, 단순히 가장 어려운 샘플뿐만 아니라 다양한 작업과 적절한 난이도를 가진 샘플이 포함되어 있음을 확인했습니다.
English
Data selection for instruction tuning is essential for improving the performance of Large Language Models (LLMs) and reducing training cost. However, existing automated selection methods either depend on computationally expensive gradient-based measures or manually designed heuristics, which may fail to fully exploit the intrinsic attributes of data. In this paper, we propose In-context Learning for Contribution Measurement (ICon), a novel gradient-free method that takes advantage of the implicit fine-tuning nature of in-context learning (ICL) to measure sample contribution without gradient computation or manual indicators engineering. ICon offers a computationally efficient alternative to gradient-based methods and reduces human inductive bias inherent in heuristic-based approaches. ICon comprises three components and identifies high-contribution data by assessing performance shifts under implicit learning through ICL. Extensive experiments on three LLMs across 12 benchmarks and 5 pairwise evaluation sets demonstrate the effectiveness of ICon. Remarkably, on LLaMA3.1-8B, models trained on 15% of ICon-selected data outperform full datasets by 5.42% points and exceed the best performance of widely used selection methods by 2.06% points. We further analyze high-contribution samples selected by ICon, which show both diverse tasks and appropriate difficulty levels, rather than just the hardest ones.

Summary

AI-Generated Summary

PDF101May 9, 2025