ChatPaper.aiChatPaper

지시 및 추론 데이터가 사후 학습에 미치는 영향: 계층별 그래디언트를 통해 본 데이터 품질

How Instruction and Reasoning Data shape Post-Training: Data Quality through the Lens of Layer-wise Gradients

April 14, 2025
저자: Ming Li, Yanhong Li, Ziyue Li, Tianyi Zhou
cs.AI

초록

대규모 언어 모델(LLM)의 사후 훈련이 지시 따르기에서 복잡한 추론 과제로 발전함에 따라, 다양한 데이터가 미세 조정 동역학에 미치는 영향을 이해하는 것은 여전히 크게 탐구되지 않은 상태입니다. 본 논문에서는 LLM 사후 훈련을 위해 저품질/고품질 지시 및 추론 데이터에 의해 유도된 계층별 그래디언트의 스펙트럼 분석을 제시합니다. 우리의 분석은 데이터 평가를 위해 널리 연구된 지표들(예: IFD, InsTag, Difficulty, Reward)이 그래디언트의 특이값 분해(SVD)로부터 계산된 스펙트럼 특성으로 설명되고 통합될 수 있음을 보여줍니다. 특히, 고품질 데이터는 일반적으로 더 낮은 핵 노름(nuclear norm)과 더 높은 유효 랭크(effective rank)와 연관됩니다. 주목할 만한 점은, 유효 랭크가 미묘한 품질 차이를 포착하는 데 있어 핵 노름보다 더 나은 견고성과 해상도를 보인다는 것입니다. 예를 들어, 추론 데이터는 지시 데이터보다 훨씬 더 높은 유효 랭크를 달성하며, 이는 더 복잡한 과제에서 더 풍부한 그래디언트 구조를 암시합니다. 우리의 실험은 또한 동일한 계열 내의 모델들은 크기에 관계없이 유사한 그래디언트 패턴을 공유하는 반면, 서로 다른 모델 계열들은 크게 차이가 난다는 점을 강조합니다. 지시 및 추론 데이터 전반에 걸친 데이터 품질의 영향을 통합적으로 조명함으로써, 이 연구는 데이터 품질과 훈련 안정성 간의 상호작용을 밝히고, 사후 훈련을 위한 더 나은 데이터 탐색 전략 개발에 새로운 통찰을 제공합니다.
English
As the post-training of large language models (LLMs) advances from instruction-following to complex reasoning tasks, understanding how different data affect finetuning dynamics remains largely unexplored. In this paper, we present a spectral analysis of layer-wise gradients induced by low/high-quality instruction and reasoning data for LLM post-training. Our analysis reveals that widely-studied metrics for data evaluation, e.g., IFD, InsTag, Difficulty, and Reward, can be explained and unified by spectral properties computed from gradients' singular value decomposition (SVD). Specifically, higher-quality data are usually associated with lower nuclear norms and higher effective ranks. Notably, effective rank exhibits better robustness and resolution than nuclear norm in capturing subtle quality differences. For example, reasoning data achieves substantially higher effective ranks than instruction data, implying richer gradient structures on more complex tasks. Our experiments also highlight that models within the same family share similar gradient patterns regardless of their sizes, whereas different model families diverge significantly. Providing a unified view on the effects of data quality across instruction and reasoning data, this work illuminates the interplay between data quality and training stability, shedding novel insights into developing better data exploration strategies for post-training.

Summary

AI-Generated Summary

PDF402April 16, 2025