CrowdSelect: Selezione di Dati di Istruzione Sintetici con la Saggezza di Multi-LLM
CrowdSelect: Synthetic Instruction Data Selection with Multi-LLM Wisdom
March 3, 2025
Autori: Yisen Li, Lingfeng Yang, Wenxuan Shen, Pan Zhou, Yao Wan, Weiwei Lin, Dongping Chen
cs.AI
Abstract
Distillare le capacità di seguire istruzioni dei modelli linguistici avanzati in modelli più piccoli utilizzando un sottoinsieme selezionato è diventato un approccio mainstream nell'addestramento dei modelli. Mentre le strategie esistenti per la selezione dei dati sintetici di istruzione si basano principalmente su segnali unidimensionali (ad esempio, punteggi di ricompensa, perplessità del modello), non riescono a catturare la complessità del seguire istruzioni in campi diversi. Pertanto, investigiamo segnali più diversificati per catturare le caratteristiche complete delle coppie istruzione-risposta e proponiamo tre metriche fondamentali che sfruttano la saggezza di Multi-LLM, informate da (1) risposte diverse di LLM e (2) valutazione del modello di ricompensa. Basandoci su queste metriche di base, proponiamo CrowdSelect, una metrica integrata che incorpora un approccio basato sul clustering per mantenere la diversità delle risposte. I nostri esperimenti completi dimostrano che le nostre metriche fondamentali migliorano costantemente le prestazioni su 4 modelli di base su MT-bench e Arena-Hard. CrowdSelect, incorporando in modo efficiente tutte le metriche, raggiunge prestazioni all'avanguardia sia nel fine-tuning completo che in LoRA, mostrando miglioramenti del 4.81% su Arena-Hard e dell'11.1% su MT-bench con Llama-3.2-3b-instruct. Speriamo che i nostri risultati portino intuizioni preziose per future ricerche in questa direzione. Il codice è disponibile all'indirizzo https://github.com/listentm/crowdselect.
English
Distilling advanced Large Language Models' instruction-following capabilities
into smaller models using a selected subset has become a mainstream approach in
model training. While existing synthetic instruction data selection strategies
rely mainly on single-dimensional signals (i.e., reward scores, model
perplexity), they fail to capture the complexity of instruction-following
across diverse fields. Therefore, we investigate more diverse signals to
capture comprehensive instruction-response pair characteristics and propose
three foundational metrics that leverage Multi-LLM wisdom, informed by (1)
diverse LLM responses and (2) reward model assessment. Building upon base
metrics, we propose CrowdSelect, an integrated metric incorporating a
clustering-based approach to maintain response diversity. Our comprehensive
experiments demonstrate that our foundation metrics consistently improve
performance across 4 base models on MT-bench and Arena-Hard. CrowdSelect,
efficiently incorporating all metrics, achieves state-of-the-art performance in
both Full and LoRA fine-tuning, showing improvements of 4.81% on Arena-Hard and
11.1% on MT-bench with Llama-3.2-3b-instruct. We hope our findings will bring
valuable insights for future research in this direction. Code are available at
https://github.com/listentm/crowdselect.Summary
AI-Generated Summary