Abstract Data quality is crucial for the success of machine learning models. However, defining and measuring data quality remains challenging, especially for subjective criteria that depend on human judgment. We present CritiQ, a framework that mines data quality criteria from human preferences using pairwise comparisons. CritiQ leverages active learning to efficiently query human annotators and builds a probabilistic model of their preferences. We evaluate CritiQ on three datasets across different domains, showing that it can effectively identify relevant data quality criteria and improve model performance. Our results demonstrate that CritiQ is a promising approach for incorporating human preferences into data quality assessment.CritiQ: Extracción de Criterios de Calidad de Datos a partir de Preferencias Humanas Resumen La calidad de los datos es crucial para el éxito de los modelos de aprendizaje automático. Sin embargo, definir y medir la calidad de los datos sigue siendo un desafío, especialmente para los criterios subjetivos que dependen del juicio humano. Presentamos CritiQ, un marco que extrae criterios de calidad de datos a partir de preferencias humanas utilizando comparaciones por pares. CritiQ aprovecha el aprendizaje activo para consultar de manera eficiente a anotadores humanos y construye un modelo probabilístico de sus preferencias. Evaluamos CritiQ en tres conjuntos de datos de diferentes dominios, demostrando que puede identificar de manera efectiva criterios relevantes de calidad de datos y mejorar el rendimiento del modelo. Nuestros resultados muestran que CritiQ es un enfoque prometedor para incorporar preferencias humanas en la evaluación de la calidad de los datos.
CritiQ: Mining Data Quality Criteria from Human Preferences
February 26, 2025
Autores: Honglin Guo, Kai Lv, Qipeng Guo, Tianyi Liang, Zhiheng Xi, Demin Song, Qiuyinzhe Zhang, Yu Sun, Kai Chen, Xipeng Qiu, Tao Gui
cs.AI
Resumen
Los modelos de lenguaje dependen en gran medida de datos de alta calidad para un rendimiento óptimo. Los enfoques existentes se basan en heurísticas diseñadas manualmente, la perplejidad de modelos existentes, el entrenamiento de clasificadores o la ingeniería cuidadosa de prompts, lo que requiere una experiencia experta significativa y un esfuerzo de anotación humana, además de introducir sesgos. Presentamos CritiQ, un método novedoso de selección de datos que extrae automáticamente criterios de las preferencias humanas sobre la calidad de los datos utilizando solo 30 pares anotados por humanos y realiza una selección eficiente de datos. El componente principal, CritiQ Flow, emplea un agente gestor para evolucionar los criterios de calidad y agentes trabajadores para realizar juicios por pares. Construimos una base de conocimiento que extrae criterios de calidad de trabajos previos para potenciar CritiQ Flow. En comparación con los métodos basados en perplejidad y clasificadores, los criterios verbales son más interpretables y poseen valor reutilizable. Tras derivar los criterios, entrenamos el CritiQ Scorer para asignar puntuaciones de calidad y realizar una selección eficiente de datos. Demostramos la efectividad de nuestro método en los dominios de código, matemáticas y lógica, logrando una alta precisión en conjuntos de prueba anotados por humanos. Para validar la calidad de los datos seleccionados, entrenamos continuamente modelos Llama 3.1 y observamos un mejor rendimiento en tareas posteriores en comparación con el muestreo uniforme. Estudios de ablación validan los beneficios de la base de conocimiento y el proceso de reflexión. Analizamos cómo evolucionan los criterios y la efectividad de la votación por mayoría.
English
Language model heavily depends on high-quality data for optimal performance.
Existing approaches rely on manually designed heuristics, the perplexity of
existing models, training classifiers, or careful prompt engineering, which
require significant expert experience and human annotation effort while
introduce biases. We introduce CritiQ, a novel data selection method that
automatically mines criteria from human preferences for data quality with only
sim30 human-annotated pairs and performs efficient data selection. The main
component, CritiQ Flow, employs a manager agent to evolve quality criteria and
worker agents to make pairwise judgments. We build a knowledge base that
extracts quality criteria from previous work to boost CritiQ Flow. Compared to
perplexity- and classifier- based methods, verbal criteria are more
interpretable and possess reusable value. After deriving the criteria, we train
the CritiQ Scorer to give quality scores and perform efficient data selection.
We demonstrate the effectiveness of our method in the code, math, and logic
domains, achieving high accuracy on human-annotated test sets. To validate the
quality of the selected data, we continually train Llama 3.1 models and observe
improved performance on downstream tasks compared to uniform sampling. Ablation
studies validate the benefits of the knowledge base and the reflection process.
We analyze how criteria evolve and the effectiveness of majority voting.Summary
AI-Generated Summary