CrowdSelect: Synthetische Auswahl von Instruktionsdaten mit Multi-LLM-Weisheit
CrowdSelect: Synthetic Instruction Data Selection with Multi-LLM Wisdom
March 3, 2025
Autoren: Yisen Li, Lingfeng Yang, Wenxuan Shen, Pan Zhou, Yao Wan, Weiwei Lin, Dongping Chen
cs.AI
Zusammenfassung
Das Destillieren der Anweisungsbefolgungskapazitäten fortgeschrittener Large Language Models in kleinere Modelle mithilfe einer ausgewählten Teilmenge hat sich zu einem gängigen Ansatz im Modelltraining entwickelt. Während bestehende Strategien zur Auswahl synthetischer Anweisungsdaten hauptsächlich auf eindimensionalen Signalen (z. B. Belohnungswerte, Modellperplexität) basieren, erfassen sie nicht die Komplexität der Anweisungsbefolgung über diverse Bereiche hinweg. Daher untersuchen wir vielfältigere Signale, um umfassende Merkmale von Anweisungs-Antwort-Paaren zu erfassen, und schlagen drei grundlegende Metriken vor, die die Weisheit mehrerer LLMs nutzen, basierend auf (1) diversen LLM-Antworten und (2) der Bewertung durch Belohnungsmodelle. Aufbauend auf diesen Basismetriken präsentieren wir CrowdSelect, eine integrierte Metrik, die einen Cluster-basierten Ansatz einbezieht, um die Antwortvielfalt zu bewahren. Unsere umfangreichen Experimente zeigen, dass unsere grundlegenden Metriken die Leistung über vier Basismodelle hinweg auf MT-bench und Arena-Hard konsistent verbessern. CrowdSelect, das effizient alle Metriken einbezieht, erreicht Spitzenleistungen sowohl bei der vollständigen als auch bei der LoRA-Feinabstimmung und zeigt Verbesserungen von 4,81 % auf Arena-Hard und 11,1 % auf MT-bench mit Llama-3.2-3b-instruct. Wir hoffen, dass unsere Erkenntnisse wertvolle Einblicke für zukünftige Forschungen in dieser Richtung liefern. Der Code ist verfügbar unter https://github.com/listentm/crowdselect.
English
Distilling advanced Large Language Models' instruction-following capabilities
into smaller models using a selected subset has become a mainstream approach in
model training. While existing synthetic instruction data selection strategies
rely mainly on single-dimensional signals (i.e., reward scores, model
perplexity), they fail to capture the complexity of instruction-following
across diverse fields. Therefore, we investigate more diverse signals to
capture comprehensive instruction-response pair characteristics and propose
three foundational metrics that leverage Multi-LLM wisdom, informed by (1)
diverse LLM responses and (2) reward model assessment. Building upon base
metrics, we propose CrowdSelect, an integrated metric incorporating a
clustering-based approach to maintain response diversity. Our comprehensive
experiments demonstrate that our foundation metrics consistently improve
performance across 4 base models on MT-bench and Arena-Hard. CrowdSelect,
efficiently incorporating all metrics, achieves state-of-the-art performance in
both Full and LoRA fine-tuning, showing improvements of 4.81% on Arena-Hard and
11.1% on MT-bench with Llama-3.2-3b-instruct. We hope our findings will bring
valuable insights for future research in this direction. Code are available at
https://github.com/listentm/crowdselect.Summary
AI-Generated Summary