ChatPaper.aiChatPaper

CrowdSelect: Selección de Datos de Instrucción Sintéticos con la Sabiduría de Múltiples LLM

CrowdSelect: Synthetic Instruction Data Selection with Multi-LLM Wisdom

March 3, 2025
Autores: Yisen Li, Lingfeng Yang, Wenxuan Shen, Pan Zhou, Yao Wan, Weiwei Lin, Dongping Chen
cs.AI

Resumen

Distilar las capacidades de seguimiento de instrucciones de modelos avanzados de lenguaje de gran escala (LLM) en modelos más pequeños utilizando un subconjunto seleccionado se ha convertido en un enfoque predominante en el entrenamiento de modelos. Si bien las estrategias existentes de selección de datos sintéticos de instrucciones se basan principalmente en señales unidimensionales (es decir, puntuaciones de recompensa, perplejidad del modelo), no logran capturar la complejidad del seguimiento de instrucciones en diversos campos. Por lo tanto, investigamos señales más diversas para capturar características integrales de pares instrucción-respuesta y proponemos tres métricas fundamentales que aprovechan la sabiduría de múltiples LLM, basadas en (1) respuestas diversas de LLM y (2) evaluación de modelos de recompensa. Sobre estas métricas base, proponemos CrowdSelect, una métrica integrada que incorpora un enfoque basado en agrupamiento para mantener la diversidad de respuestas. Nuestros experimentos exhaustivos demuestran que nuestras métricas fundamentales mejoran consistentemente el rendimiento en 4 modelos base en MT-bench y Arena-Hard. CrowdSelect, que incorpora eficientemente todas las métricas, logra un rendimiento de vanguardia tanto en ajuste fino completo como en LoRA, mostrando mejoras del 4.81% en Arena-Hard y del 11.1% en MT-bench con Llama-3.2-3b-instruct. Esperamos que nuestros hallazgos aporten insights valiosos para futuras investigaciones en esta dirección. El código está disponible en https://github.com/listentm/crowdselect.
English
Distilling advanced Large Language Models' instruction-following capabilities into smaller models using a selected subset has become a mainstream approach in model training. While existing synthetic instruction data selection strategies rely mainly on single-dimensional signals (i.e., reward scores, model perplexity), they fail to capture the complexity of instruction-following across diverse fields. Therefore, we investigate more diverse signals to capture comprehensive instruction-response pair characteristics and propose three foundational metrics that leverage Multi-LLM wisdom, informed by (1) diverse LLM responses and (2) reward model assessment. Building upon base metrics, we propose CrowdSelect, an integrated metric incorporating a clustering-based approach to maintain response diversity. Our comprehensive experiments demonstrate that our foundation metrics consistently improve performance across 4 base models on MT-bench and Arena-Hard. CrowdSelect, efficiently incorporating all metrics, achieves state-of-the-art performance in both Full and LoRA fine-tuning, showing improvements of 4.81% on Arena-Hard and 11.1% on MT-bench with Llama-3.2-3b-instruct. We hope our findings will bring valuable insights for future research in this direction. Code are available at https://github.com/listentm/crowdselect.

Summary

AI-Generated Summary

PDF135March 6, 2025