Only-IF: 교육 다양성의 결정적 영향을 드러내다.
Only-IF:Revealing the Decisive Effect of Instruction Diversity on Generalization
October 7, 2024
저자: Dylan Zhang, Justin Wang, Francois Charton
cs.AI
초록
대규모 언어 모델(LLM)이 다양한 작업에 효과적으로 작동하기 위해서는 지침을 이해하고 정확하게 따르는 것이 중요합니다. 본 연구에서는 모델이 보이지 않는 지침에 대해 일반화되는 데 필요한 주요 요소를 철저히 조사하여, 지침 조정을 위한 데이터 수집을 안내하는 통찰을 제공합니다. Turing-complete Markov 알고리즘에서 영감을 받은 통제된 실험을 통해, 훈련 데이터가 의미적 도메인을 넘나드는 다양성을 갖추었을 때에만 그러한 일반화가 나타남을 입증합니다. 우리의 연구 결과는 단순히 한정된 도메인 내에서 다양성을 확보하는 것만으로는 강건한 일반화를 보장할 수 없다는 것을 밝혀냅니다. 반면, 제한된 데이터 예산 하에서라도 도메인 간 데이터 다양화는 모델의 적응성을 크게 향상시킵니다. 또한, 특화 모델과 일반 모델의 세밀한 조정을 포함한 실제 시나리오에 우리의 분석을 확장합니다. 두 경우 모두에서, 1) 데이터 크기를 일정하게 유지하면서 확립된 데이터셋의 다양성을 높이면 더 나은 성능을 달성할 수 있으며, 2) 데이터를 확장할 때, 지침의 의미를 다양화시키는 것이 단순히 유사한 데이터의 양을 증가시키는 것보다 효과적임을 입증합니다. 우리의 연구는 특화 및 일반 시나리오에 대한 훈련 데이터를 확장하여 모델 성능을 최적화할 때 데이터 다양화에 대한 신중한 고려가 필수적임을 보여줍니다. 핵심 도메인을 넘어선 데이터로 특화 모델을 훈련시키면 성능이 크게 향상되는 반면, 일반 모델은 다양한 데이터 조합을 통해 다양한 응용 프로그램에서의 전반적인 지침 준수 능력이 향상됩니다. 우리의 결과는 전략적 다양화의 중요한 역할을 강조하며 데이터 품질을 향상시키기 위한 명확한 지침을 제시합니다.
English
Understanding and accurately following instructions is critical for large
language models (LLMs) to be effective across diverse tasks. In this work, we
rigorously examine the key factors that enable models to generalize to unseen
instructions, providing insights to guide the collection of data for
instruction-tuning. Through controlled experiments, inspired by the
Turing-complete Markov algorithm, we demonstrate that such generalization
only emerges when training data is diversified enough across
semantic domains. Our findings also reveal that merely diversifying within
limited domains fails to ensure robust generalization. In contrast,
cross-domain data diversification, even under constrained data budgets,
significantly enhances a model's adaptability. We further extend our analysis
to real-world scenarios, including fine-tuning of
$textbf{specialist} and textbf{generalist}$ models.
In both cases, we demonstrate that 1) better performance can be achieved by
increasing the diversity of an established dataset while keeping the data size
constant, and 2) when scaling up the data, diversifying the semantics of
instructions is more effective than simply increasing the quantity of similar
data. Our research provides important insights for dataset collation,
particularly when optimizing model performance by expanding training data for
both specialist and generalist scenarios. We show that careful consideration of
data diversification is key: training specialist models with data extending
beyond their core domain leads to significant performance improvements, while
generalist models benefit from diverse data mixtures that enhance their overall
instruction-following capabilities across a wide range of applications. Our
results highlight the critical role of strategic diversification and offer
clear guidelines for improving data quality.Summary
AI-Generated Summary