COIG-P: Un conjunto de datos extenso y de alta calidad sobre preferencias en chino para la alineación con valores humanos
COIG-P: A High-Quality and Large-Scale Chinese Preference Dataset for Alignment with Human Values
April 7, 2025
Autores: M-A-P Team, Siwei Wu, Jincheng Ren, Xinrun Du, Shuyue Guo, Xingwei Qu, Yiming Liang, Jie Liu, Yunwen Li, Tianyu Zheng, Boyu Feng, Huaqing Yuan, Zenith Wang, Jiaheng Liu, Wenhao Huang, Chenglin Cai, Haoran Que, Jian Yang, Yuelin Bai, Zekun Moore Wang, Zhouliang Yu, Qunshu Lin, Ding Pan, Yuchen Jiang, Tiannan Wang, Wangchunshu Zhou, Shenzhi Wang, Xingyuan Bu, Minghao Liu, Guoyin Wang, Ge Zhang, Chenghua Lin
cs.AI
Resumen
La alineación de modelos de lenguaje de gran escala (LLMs) con las preferencias humanas ha logrado un éxito notable. Sin embargo, los conjuntos de datos de preferencias en chino existentes están limitados por su pequeña escala, cobertura de dominio reducida y falta de validación rigurosa de los datos. Además, la dependencia de anotadores humanos para etiquetar instrucciones y respuestas restringe significativamente la escalabilidad de los conjuntos de datos de preferencias humanas. Para abordar estos desafíos, diseñamos una pipeline de anotación de conjuntos de datos de preferencias en chino basada en LLMs sin intervención humana. Específicamente, rastreamos y filtramos cuidadosamente 92k consultas en chino de alta calidad, y empleamos 15 LLMs principales para generar y puntuar pares de respuestas elegidas-rechazadas. Basándonos en esto, presentamos COIG-P (Chinese Open Instruction Generalist - Preference), un conjunto de datos de preferencias en chino de alta calidad y gran escala, que comprende 1,009k pares de preferencias en chino que abarcan 6 dominios diversos: Chat, Código, Matemáticas, Lógica, Novela y Rol. Sobre la base de COIG-P, para reducir la sobrecarga de usar LLMs para puntuar, entrenamos un Modelo de Recompensa en Chino (CRM) de 8B y construimos meticulosamente un Benchmark de Recompensa en Chino (CRBench). Los resultados de evaluación basados en AlignBench liu2024alignbenchbenchmarkingchinesealignment muestran que COIG-P supera significativamente a otros conjuntos de datos de preferencias en chino, y aporta mejoras de rendimiento que van del 2% al 12% para las series de modelos Qwen2/2.5 e Infinity-Instruct-3M-0625, respectivamente. Los resultados en CRBench demuestran que nuestro CRM tiene una capacidad de puntuación sólida y robusta. Lo aplicamos para filtrar pares de respuestas elegidas-rechazadas en una división de prueba de COIG-P, y nuestros experimentos muestran que es comparable a GPT-4o en la identificación de muestras de baja calidad, manteniendo la eficiencia y la rentabilidad. Nuestros códigos y datos están disponibles en https://github.com/multimodal-art-projection/COIG-P.
English
Aligning large language models (LLMs) with human preferences has achieved
remarkable success. However, existing Chinese preference datasets are limited
by small scale, narrow domain coverage, and lack of rigorous data validation.
Additionally, the reliance on human annotators for instruction and response
labeling significantly constrains the scalability of human preference datasets.
To address these challenges, we design an LLM-based Chinese preference dataset
annotation pipeline with no human intervention. Specifically, we crawled and
carefully filtered 92k high-quality Chinese queries and employed 15 mainstream
LLMs to generate and score chosen-rejected response pairs. Based on it, we
introduce COIG-P (Chinese Open Instruction Generalist - Preference), a
high-quality, large-scale Chinese preference dataset, comprises 1,009k Chinese
preference pairs spanning 6 diverse domains: Chat, Code, Math, Logic, Novel,
and Role. Building upon COIG-P, to reduce the overhead of using LLMs for
scoring, we trained a 8B-sized Chinese Reward Model (CRM) and meticulously
constructed a Chinese Reward Benchmark (CRBench). Evaluation results based on
AlignBench liu2024alignbenchbenchmarkingchinesealignment show that that
COIG-P significantly outperforms other Chinese preference datasets, and it
brings significant performance improvements ranging from 2% to 12% for the
Qwen2/2.5 and Infinity-Instruct-3M-0625 model series, respectively. The results
on CRBench demonstrate that our CRM has a strong and robust scoring ability. We
apply it to filter chosen-rejected response pairs in a test split of COIG-P,
and our experiments show that it is comparable to GPT-4o in identifying
low-quality samples while maintaining efficiency and cost-effectiveness. Our
codes and data are released in
https://github.com/multimodal-art-projection/COIG-P.Summary
AI-Generated Summary