CritiQ: Het afleiden van gegevenskwaliteitscriteria uit menselijke voorkeuren
CritiQ: Mining Data Quality Criteria from Human Preferences
February 26, 2025
Auteurs: Honglin Guo, Kai Lv, Qipeng Guo, Tianyi Liang, Zhiheng Xi, Demin Song, Qiuyinzhe Zhang, Yu Sun, Kai Chen, Xipeng Qiu, Tao Gui
cs.AI
Samenvatting
Taalmodelen zijn sterk afhankelijk van hoogwaardige data voor optimale prestaties.
Bestaande benaderingen vertrouwen op handmatig ontworpen heuristieken, de perplexiteit van
bestaande modellen, het trainen van classificatoren of zorgvuldige prompt engineering, wat
aanzienlijke expertise en menselijke annotatie-inspanning vereist en tegelijkertijd
vooroordelen introduceert. Wij introduceren CritiQ, een nieuwe methode voor dataselectie die
automatisch criteria uit menselijke voorkeuren voor data kwaliteit ontgint met slechts
30 door mensen geannoteerde paren en efficiënte dataselectie uitvoert. Het belangrijkste
onderdeel, CritiQ Flow, maakt gebruik van een manageragent om kwaliteitscriteria te ontwikkelen en
werknemersagenten om paarsgewijze beoordelingen te maken. We bouwen een kennisbank die
kwaliteitscriteria uit eerder werk extraheert om CritiQ Flow te versterken. In vergelijking met
op perplexiteit en classificatie gebaseerde methoden zijn verbale criteria meer
interpreteerbaar en hebben ze herbruikbare waarde. Na het afleiden van de criteria trainen we
de CritiQ Scorer om kwaliteitsscores te geven en efficiënte dataselectie uit te voeren.
We demonstreren de effectiviteit van onze methode in de domeinen code, wiskunde en logica,
waarbij we hoge nauwkeurigheid behalen op door mensen geannoteerde test sets. Om de kwaliteit van de geselecteerde data te valideren, trainen we voortdurend Llama 3.1-modellen en observeren we
verbeterde prestaties op downstream taken in vergelijking met uniforme steekproeven. Ablatie
studies valideren de voordelen van de kennisbank en het reflectieproces.
We analyseren hoe criteria evolueren en de effectiviteit van meerderheidsstemming.
English
Language model heavily depends on high-quality data for optimal performance.
Existing approaches rely on manually designed heuristics, the perplexity of
existing models, training classifiers, or careful prompt engineering, which
require significant expert experience and human annotation effort while
introduce biases. We introduce CritiQ, a novel data selection method that
automatically mines criteria from human preferences for data quality with only
sim30 human-annotated pairs and performs efficient data selection. The main
component, CritiQ Flow, employs a manager agent to evolve quality criteria and
worker agents to make pairwise judgments. We build a knowledge base that
extracts quality criteria from previous work to boost CritiQ Flow. Compared to
perplexity- and classifier- based methods, verbal criteria are more
interpretable and possess reusable value. After deriving the criteria, we train
the CritiQ Scorer to give quality scores and perform efficient data selection.
We demonstrate the effectiveness of our method in the code, math, and logic
domains, achieving high accuracy on human-annotated test sets. To validate the
quality of the selected data, we continually train Llama 3.1 models and observe
improved performance on downstream tasks compared to uniform sampling. Ablation
studies validate the benefits of the knowledge base and the reflection process.
We analyze how criteria evolve and the effectiveness of majority voting.