CritiQ: Estrazione di Criteri di Qualità dei Dati dalle Preferenze Umane
CritiQ: Mining Data Quality Criteria from Human Preferences
February 26, 2025
Autori: Honglin Guo, Kai Lv, Qipeng Guo, Tianyi Liang, Zhiheng Xi, Demin Song, Qiuyinzhe Zhang, Yu Sun, Kai Chen, Xipeng Qiu, Tao Gui
cs.AI
Abstract
Our
method reduces the need for human annotation and expert experience while
achieving high-quality data selection.Il modello linguistico dipende fortemente da dati di alta qualità per ottenere prestazioni ottimali.
Gli approcci esistenti si basano su euristiche progettate manualmente, sulla perplessità dei
modelli esistenti, sull'addestramento di classificatori o su un'attenta progettazione di prompt, che
richiedono una significativa esperienza specialistica e uno sforzo di annotazione umana, introducendo
allo stesso tempo bias. Introduciamo CritiQ, un nuovo metodo di selezione dei dati che
estrae automaticamente criteri dalle preferenze umane per la qualità dei dati utilizzando solo
30 coppie annotate manualmente e svolge una selezione efficiente dei dati. Il componente
principale, CritiQ Flow, impiega un agente manager per evolvere i criteri di qualità e
agenti worker per effettuare giudizi a coppie. Costruiamo una base di conoscenza che
estrae criteri di qualità da lavori precedenti per potenziare CritiQ Flow. Rispetto ai
metodi basati sulla perplessità e sui classificatori, i criteri verbali sono più
interpretabili e possiedono un valore riutilizzabile. Dopo aver derivato i criteri, addestriamo
il CritiQ Scorer per assegnare punteggi di qualità e svolgere una selezione efficiente dei dati.
Dimostriamo l'efficacia del nostro metodo nei domini del codice, della matematica e della logica,
raggiungendo un'elevata accuratezza su set di test annotati manualmente. Per validare la qualità
dei dati selezionati, continuiamo ad addestrare modelli Llama 3.1 e osserviamo miglioramenti
nelle prestazioni su task downstream rispetto al campionamento uniforme. Studi di ablazione
convalidano i benefici della base di conoscenza e del processo di riflessione. Analizziamo
come evolvono i criteri e l'efficacia del voto a maggioranza. Il nostro metodo riduce la necessità
di annotazione umana e di esperienza specialistica, ottenendo comunque una selezione di dati di alta qualità.
English
Language model heavily depends on high-quality data for optimal performance.
Existing approaches rely on manually designed heuristics, the perplexity of
existing models, training classifiers, or careful prompt engineering, which
require significant expert experience and human annotation effort while
introduce biases. We introduce CritiQ, a novel data selection method that
automatically mines criteria from human preferences for data quality with only
sim30 human-annotated pairs and performs efficient data selection. The main
component, CritiQ Flow, employs a manager agent to evolve quality criteria and
worker agents to make pairwise judgments. We build a knowledge base that
extracts quality criteria from previous work to boost CritiQ Flow. Compared to
perplexity- and classifier- based methods, verbal criteria are more
interpretable and possess reusable value. After deriving the criteria, we train
the CritiQ Scorer to give quality scores and perform efficient data selection.
We demonstrate the effectiveness of our method in the code, math, and logic
domains, achieving high accuracy on human-annotated test sets. To validate the
quality of the selected data, we continually train Llama 3.1 models and observe
improved performance on downstream tasks compared to uniform sampling. Ablation
studies validate the benefits of the knowledge base and the reflection process.
We analyze how criteria evolve and the effectiveness of majority voting.Summary
AI-Generated Summary