SFTMix: 믹스업 레시피를 활용한 언어 모델 인스트럭션 튜닝의 향상
SFTMix: Elevating Language Model Instruction Tuning with Mixup Recipe
October 7, 2024
저자: Yuxin Xiao, Shujian Zhang, Wenxuan Zhou, Marzyeh Ghassemi, Sanqiang Zhao
cs.AI
초록
대규모 언어 모델(LLM)에서 원하는 행동을 유도하기 위해 상호작용 중심 작업을 위한 지시 조정 단계에서는 일반적으로 다음 토큰 예측(NTP) 손실을 사용하여 LLM을 지시-응답 쌍으로 훈련시킵니다. 지시 조정 성능을 향상시키기 위한 이전 연구들은 주로 고품질 지도 미세 조정(SFT) 데이터셋의 필요성을 강조하며, 이는 일반적으로 독점적 LLM을 사용한 비용이 많이 드는 데이터 필터링이나 인력 집약적인 데이터 생성을 포함합니다. 그러나 이러한 접근 방식은 데이터셋의 본질적인 특성을 완전히 활용하지 못하여 높은 계산 및 인력 비용을 초래하여 확장성과 성능 향상을 제한합니다. 본 논문에서는 잘 정돈된 데이터셋이 필요하지 않은 상태에서 NTP 패러다임을 넘어선 지시 조정 성능을 높이는 새로운 레시피인 SFTMix를 제안합니다. LLM이 의미 표현 공간에서 불균형한 신뢰도를 보인다는 점을 고려하여, 서로 다른 신뢰 수준을 가진 예제가 지시 조정 과정에서 서로 다른 역할을 해야 한다고 주장합니다. 이 통찰력을 기반으로 SFTMix는 훈련 동역학을 활용하여 다양한 신뢰 수준을 가진 예제를 식별한 다음, Mixup 기반 정규화를 적용하여 자신감 있는 예제에서의 과적합을 완화하고, 비교적 자신감이 없는 예제에서의 학습을 개선하기 위해 감독 신호를 전파합니다. 이 접근 방식을 통해 SFTMix는 다양한 LLM 패밀리 및 임의 크기의 데이터셋에 대한 확장성을 입증하며, 다양한 지시 따르기 및 의료 도메인 특정 SFT 작업에서 NTP를 크게 능가함으로써 그 다양성을 보여줍니다. 포괄적인 제거 연구는 SFTMix의 설계 선택의 견고성을 추가로 확인하며, 넓은 자연어 처리 응용 프로그램에서 다양한 LLM 및 데이터셋을 통해 성능을 일관되게 향상시키는 다재다능성을 강조합니다.
English
To induce desired behaviors in large language models (LLMs) for
interaction-driven tasks, the instruction-tuning stage typically trains LLMs on
instruction-response pairs using the next-token prediction (NTP) loss. Previous
work aiming to improve instruction-tuning performance often emphasizes the need
for higher-quality supervised fine-tuning (SFT) datasets, which typically
involves expensive data filtering with proprietary LLMs or labor-intensive data
generation by human annotators. However, these approaches do not fully leverage
the datasets' intrinsic properties, resulting in high computational and labor
costs, thereby limiting scalability and performance gains. In this paper, we
propose SFTMix, a novel recipe that elevates instruction-tuning performance
beyond the conventional NTP paradigm, without the need for well-curated
datasets. Observing that LLMs exhibit uneven confidence across the semantic
representation space, we argue that examples with different confidence levels
should play distinct roles during the instruction-tuning process. Based on this
insight, SFTMix leverages training dynamics to identify examples with varying
confidence levels, then applies a Mixup-based regularization to mitigate
overfitting on confident examples while propagating supervision signals to
improve learning on relatively unconfident ones. This approach enables SFTMix
to significantly outperform NTP across a wide range of instruction-following
and healthcare domain-specific SFT tasks, demonstrating its adaptability to
diverse LLM families and scalability to datasets of any size. Comprehensive
ablation studies further verify the robustness of SFTMix's design choices,
underscoring its versatility in consistently enhancing performance across
different LLMs and datasets in broader natural language processing
applications.Summary
AI-Generated Summary