CrowdSelect: 다중 LLM 지혜를 활용한 합성 명령어 데이터 선택
CrowdSelect: Synthetic Instruction Data Selection with Multi-LLM Wisdom
March 3, 2025
저자: Yisen Li, Lingfeng Yang, Wenxuan Shen, Pan Zhou, Yao Wan, Weiwei Lin, Dongping Chen
cs.AI
초록
고급 대형 언어 모델(LLM)의 명령 수행 능력을 더 작은 모델로 전이하기 위해 선택된 데이터 하위 집합을 사용하는 것은 모델 학습에서 주류 접근 방식이 되었습니다. 기존의 합성 명령 데이터 선택 전략은 주로 단일 차원 신호(예: 보상 점수, 모델 혼란도)에 의존하고 있어 다양한 분야에서의 명령 수행 복잡성을 포착하지 못합니다. 따라서 우리는 더 다양한 신호를 조사하여 포괄적인 명령-응답 쌍 특성을 파악하고, (1) 다양한 LLM 응답과 (2) 보상 모델 평가를 기반으로 한 다중 LLM 지혜를 활용한 세 가지 기본 메트릭을 제안합니다. 이러한 기본 메트릭을 바탕으로, 응답 다양성을 유지하기 위한 클러스터링 기반 접근법을 통합한 CrowdSelect라는 통합 메트릭을 제안합니다. 우리의 포괄적인 실험은 우리의 기본 메트릭이 MT-bench와 Arena-Hard에서 4개의 기본 모델에 걸쳐 일관되게 성능을 향상시킨다는 것을 보여줍니다. 모든 메트릭을 효율적으로 통합한 CrowdSelect는 Full 및 LoRA 미세 조정 모두에서 최신 기술 수준의 성능을 달성하며, Llama-3.2-3b-instruct 모델을 사용한 Arena-Hard에서 4.81%, MT-bench에서 11.1%의 성능 향상을 보여줍니다. 우리의 연구 결과가 이 방향의 미래 연구에 유용한 통찰을 제공하기를 바랍니다. 코드는 https://github.com/listentm/crowdselect에서 확인할 수 있습니다.
English
Distilling advanced Large Language Models' instruction-following capabilities
into smaller models using a selected subset has become a mainstream approach in
model training. While existing synthetic instruction data selection strategies
rely mainly on single-dimensional signals (i.e., reward scores, model
perplexity), they fail to capture the complexity of instruction-following
across diverse fields. Therefore, we investigate more diverse signals to
capture comprehensive instruction-response pair characteristics and propose
three foundational metrics that leverage Multi-LLM wisdom, informed by (1)
diverse LLM responses and (2) reward model assessment. Building upon base
metrics, we propose CrowdSelect, an integrated metric incorporating a
clustering-based approach to maintain response diversity. Our comprehensive
experiments demonstrate that our foundation metrics consistently improve
performance across 4 base models on MT-bench and Arena-Hard. CrowdSelect,
efficiently incorporating all metrics, achieves state-of-the-art performance in
both Full and LoRA fine-tuning, showing improvements of 4.81% on Arena-Hard and
11.1% on MT-bench with Llama-3.2-3b-instruct. We hope our findings will bring
valuable insights for future research in this direction. Code are available at
https://github.com/listentm/crowdselect.Summary
AI-Generated Summary