ChatPaper.aiChatPaper

CritiQ: Estrazione di Criteri di Qualità dei Dati dalle Preferenze Umane

CritiQ: Mining Data Quality Criteria from Human Preferences

February 26, 2025
Autori: Honglin Guo, Kai Lv, Qipeng Guo, Tianyi Liang, Zhiheng Xi, Demin Song, Qiuyinzhe Zhang, Yu Sun, Kai Chen, Xipeng Qiu, Tao Gui
cs.AI

Abstract

Our method reduces the need for human annotation and expert experience while achieving high-quality data selection.Il modello linguistico dipende fortemente da dati di alta qualità per ottenere prestazioni ottimali. Gli approcci esistenti si basano su euristiche progettate manualmente, sulla perplessità dei modelli esistenti, sull'addestramento di classificatori o su un'attenta progettazione di prompt, che richiedono una significativa esperienza specialistica e uno sforzo di annotazione umana, introducendo allo stesso tempo bias. Introduciamo CritiQ, un nuovo metodo di selezione dei dati che estrae automaticamente criteri dalle preferenze umane per la qualità dei dati utilizzando solo 30 coppie annotate manualmente e svolge una selezione efficiente dei dati. Il componente principale, CritiQ Flow, impiega un agente manager per evolvere i criteri di qualità e agenti worker per effettuare giudizi a coppie. Costruiamo una base di conoscenza che estrae criteri di qualità da lavori precedenti per potenziare CritiQ Flow. Rispetto ai metodi basati sulla perplessità e sui classificatori, i criteri verbali sono più interpretabili e possiedono un valore riutilizzabile. Dopo aver derivato i criteri, addestriamo il CritiQ Scorer per assegnare punteggi di qualità e svolgere una selezione efficiente dei dati. Dimostriamo l'efficacia del nostro metodo nei domini del codice, della matematica e della logica, raggiungendo un'elevata accuratezza su set di test annotati manualmente. Per validare la qualità dei dati selezionati, continuiamo ad addestrare modelli Llama 3.1 e osserviamo miglioramenti nelle prestazioni su task downstream rispetto al campionamento uniforme. Studi di ablazione convalidano i benefici della base di conoscenza e del processo di riflessione. Analizziamo come evolvono i criteri e l'efficacia del voto a maggioranza. Il nostro metodo riduce la necessità di annotazione umana e di esperienza specialistica, ottenendo comunque una selezione di dati di alta qualità.
English
Language model heavily depends on high-quality data for optimal performance. Existing approaches rely on manually designed heuristics, the perplexity of existing models, training classifiers, or careful prompt engineering, which require significant expert experience and human annotation effort while introduce biases. We introduce CritiQ, a novel data selection method that automatically mines criteria from human preferences for data quality with only sim30 human-annotated pairs and performs efficient data selection. The main component, CritiQ Flow, employs a manager agent to evolve quality criteria and worker agents to make pairwise judgments. We build a knowledge base that extracts quality criteria from previous work to boost CritiQ Flow. Compared to perplexity- and classifier- based methods, verbal criteria are more interpretable and possess reusable value. After deriving the criteria, we train the CritiQ Scorer to give quality scores and perform efficient data selection. We demonstrate the effectiveness of our method in the code, math, and logic domains, achieving high accuracy on human-annotated test sets. To validate the quality of the selected data, we continually train Llama 3.1 models and observe improved performance on downstream tasks compared to uniform sampling. Ablation studies validate the benefits of the knowledge base and the reflection process. We analyze how criteria evolve and the effectiveness of majority voting.

Summary

AI-Generated Summary

PDF92February 27, 2025