ChatPaper.aiChatPaper

Hoe instructie- en redeneergegevens post-training vormgeven: Datakwaliteit door de lens van laaggewijze gradienten

How Instruction and Reasoning Data shape Post-Training: Data Quality through the Lens of Layer-wise Gradients

April 14, 2025
Auteurs: Ming Li, Yanhong Li, Ziyue Li, Tianyi Zhou
cs.AI

Samenvatting

Naarmate het na-trainen van grote taalmodellen (LLM's) vordert van instructievolging naar complexe redeneertaken, blijft het begrip van hoe verschillende gegevens de finetuning-dynamiek beïnvloeden grotendeels onontgonnen. In dit artikel presenteren we een spectrale analyse van laaggewijze gradiënten die worden geïnduceerd door instructie- en redeneergegevens van lage/hoge kwaliteit voor het na-trainen van LLM's. Onze analyse onthult dat veel bestudeerde metrieken voor gegevensevaluatie, zoals IFD, InsTag, Moeilijkheid en Beloning, kunnen worden verklaard en verenigd door spectrale eigenschappen die worden berekend uit de singuliere waardeontbinding (SVD) van gradiënten. Specifiek worden gegevens van hogere kwaliteit meestal geassocieerd met lagere nucleaire normen en hogere effectieve rangen. Opmerkelijk is dat de effectieve rang betere robuustheid en resolutie vertoont dan de nucleaire norm bij het vastleggen van subtiele kwaliteitsverschillen. Zo bereiken redeneergegevens aanzienlijk hogere effectieve rangen dan instructiegegevens, wat wijst op rijkere gradiëntstructuren bij complexere taken. Onze experimenten benadrukken ook dat modellen binnen dezelfde familie vergelijkbare gradiëntpatronen delen, ongeacht hun grootte, terwijl verschillende modelfamilies aanzienlijk divergeren. Door een verenigd perspectief te bieden op de effecten van gegevenskwaliteit over instructie- en redeneergegevens, belicht dit werk de wisselwerking tussen gegevenskwaliteit en trainstabiliteit, en werpt het nieuw licht op het ontwikkelen van betere gegevensverkenningsstrategieën voor na-trainen.
English
As the post-training of large language models (LLMs) advances from instruction-following to complex reasoning tasks, understanding how different data affect finetuning dynamics remains largely unexplored. In this paper, we present a spectral analysis of layer-wise gradients induced by low/high-quality instruction and reasoning data for LLM post-training. Our analysis reveals that widely-studied metrics for data evaluation, e.g., IFD, InsTag, Difficulty, and Reward, can be explained and unified by spectral properties computed from gradients' singular value decomposition (SVD). Specifically, higher-quality data are usually associated with lower nuclear norms and higher effective ranks. Notably, effective rank exhibits better robustness and resolution than nuclear norm in capturing subtle quality differences. For example, reasoning data achieves substantially higher effective ranks than instruction data, implying richer gradient structures on more complex tasks. Our experiments also highlight that models within the same family share similar gradient patterns regardless of their sizes, whereas different model families diverge significantly. Providing a unified view on the effects of data quality across instruction and reasoning data, this work illuminates the interplay between data quality and training stability, shedding novel insights into developing better data exploration strategies for post-training.

Summary

AI-Generated Summary

PDF402April 16, 2025