ChatPaper.aiChatPaper

CrowdSelect: Synthetische instructiedataselectie met multi-LLM-wijsheid

CrowdSelect: Synthetic Instruction Data Selection with Multi-LLM Wisdom

March 3, 2025
Auteurs: Yisen Li, Lingfeng Yang, Wenxuan Shen, Pan Zhou, Yao Wan, Weiwei Lin, Dongping Chen
cs.AI

Samenvatting

Het distilleren van de instructievolgende capaciteiten van geavanceerde Large Language Models naar kleinere modellen met behulp van een geselecteerde subset is een gangbare aanpak geworden in modeltraining. Hoewel bestaande strategieën voor het selecteren van synthetische instructiedata voornamelijk afhankelijk zijn van eendimensionale signalen (zoals beloningsscores, modelperplexiteit), slagen ze er niet in de complexiteit van instructievolging over diverse vakgebieden te vatten. Daarom onderzoeken we meer diverse signalen om uitgebreide kenmerken van instructie-responsparen vast te leggen en stellen we drie fundamentele metrieken voor die gebruikmaken van Multi-LLM-wijsheid, gebaseerd op (1) diverse LLM-responsen en (2) beoordeling door een beloningsmodel. Op basis van deze basismetrieken introduceren we CrowdSelect, een geïntegreerde metriek die een clustering-gebaseerde aanpak omvat om de diversiteit van responsen te behouden. Onze uitgebreide experimenten tonen aan dat onze fundamentele metrieken consistent de prestaties verbeteren over 4 basismodellen op MT-bench en Arena-Hard. CrowdSelect, dat efficiënt alle metrieken incorporeert, behaalt state-of-the-art prestaties in zowel Full als LoRA fine-tuning, met verbeteringen van 4,81% op Arena-Hard en 11,1% op MT-bench met Llama-3.2-3b-instruct. We hopen dat onze bevindingen waardevolle inzichten zullen bieden voor toekomstig onderzoek in deze richting. Code is beschikbaar op https://github.com/listentm/crowdselect.
English
Distilling advanced Large Language Models' instruction-following capabilities into smaller models using a selected subset has become a mainstream approach in model training. While existing synthetic instruction data selection strategies rely mainly on single-dimensional signals (i.e., reward scores, model perplexity), they fail to capture the complexity of instruction-following across diverse fields. Therefore, we investigate more diverse signals to capture comprehensive instruction-response pair characteristics and propose three foundational metrics that leverage Multi-LLM wisdom, informed by (1) diverse LLM responses and (2) reward model assessment. Building upon base metrics, we propose CrowdSelect, an integrated metric incorporating a clustering-based approach to maintain response diversity. Our comprehensive experiments demonstrate that our foundation metrics consistently improve performance across 4 base models on MT-bench and Arena-Hard. CrowdSelect, efficiently incorporating all metrics, achieves state-of-the-art performance in both Full and LoRA fine-tuning, showing improvements of 4.81% on Arena-Hard and 11.1% on MT-bench with Llama-3.2-3b-instruct. We hope our findings will bring valuable insights for future research in this direction. Code are available at https://github.com/listentm/crowdselect.

Summary

AI-Generated Summary

PDF135March 6, 2025