CritiQ : Extraction de critères de qualité des données à partir des préférences humaines
CritiQ: Mining Data Quality Criteria from Human Preferences
February 26, 2025
Auteurs: Honglin Guo, Kai Lv, Qipeng Guo, Tianyi Liang, Zhiheng Xi, Demin Song, Qiuyinzhe Zhang, Yu Sun, Kai Chen, Xipeng Qiu, Tao Gui
cs.AI
Résumé
Les modèles de langage dépendent fortement de données de haute qualité pour des performances optimales. Les approches existantes s'appuient sur des heuristiques conçues manuellement, la perplexité des modèles existants, l'entraînement de classificateurs ou un ingénierie minutieuse des prompts, ce qui nécessite une expertise significative et un effort important d'annotation humaine, tout en introduisant des biais. Nous présentons CritiQ, une nouvelle méthode de sélection de données qui extrait automatiquement des critères à partir des préférences humaines concernant la qualité des données, avec seulement 30 paires annotées manuellement, et effectue une sélection de données efficace. Le composant principal, CritiQ Flow, utilise un agent manager pour faire évoluer les critères de qualité et des agents worker pour effectuer des jugements par paires. Nous construisons une base de connaissances qui extrait les critères de qualité des travaux précédents pour renforcer CritiQ Flow. Par rapport aux méthodes basées sur la perplexité et les classificateurs, les critères verbaux sont plus interprétables et possèdent une valeur réutilisable. Après avoir dérivé les critères, nous entraînons le CritiQ Scorer pour attribuer des scores de qualité et effectuer une sélection de données efficace. Nous démontrons l'efficacité de notre méthode dans les domaines du code, des mathématiques et de la logique, atteignant une haute précision sur des ensembles de tests annotés manuellement. Pour valider la qualité des données sélectionnées, nous entraînons continuellement des modèles Llama 3.1 et observons une amélioration des performances sur les tâches en aval par rapport à un échantillonnage uniforme. Des études d'ablation valident les avantages de la base de connaissances et du processus de réflexion. Nous analysons comment les critères évoluent et l'efficacité du vote à la majorité.
English
Language model heavily depends on high-quality data for optimal performance.
Existing approaches rely on manually designed heuristics, the perplexity of
existing models, training classifiers, or careful prompt engineering, which
require significant expert experience and human annotation effort while
introduce biases. We introduce CritiQ, a novel data selection method that
automatically mines criteria from human preferences for data quality with only
sim30 human-annotated pairs and performs efficient data selection. The main
component, CritiQ Flow, employs a manager agent to evolve quality criteria and
worker agents to make pairwise judgments. We build a knowledge base that
extracts quality criteria from previous work to boost CritiQ Flow. Compared to
perplexity- and classifier- based methods, verbal criteria are more
interpretable and possess reusable value. After deriving the criteria, we train
the CritiQ Scorer to give quality scores and perform efficient data selection.
We demonstrate the effectiveness of our method in the code, math, and logic
domains, achieving high accuracy on human-annotated test sets. To validate the
quality of the selected data, we continually train Llama 3.1 models and observe
improved performance on downstream tasks compared to uniform sampling. Ablation
studies validate the benefits of the knowledge base and the reflection process.
We analyze how criteria evolve and the effectiveness of majority voting.Summary
AI-Generated Summary