CritiQ: Mineração de Critérios de Qualidade de Dados a partir de Preferências Humanas
CritiQ: Mining Data Quality Criteria from Human Preferences
February 26, 2025
Autores: Honglin Guo, Kai Lv, Qipeng Guo, Tianyi Liang, Zhiheng Xi, Demin Song, Qiuyinzhe Zhang, Yu Sun, Kai Chen, Xipeng Qiu, Tao Gui
cs.AI
Resumo
O modelo de linguagem depende fortemente de dados de alta qualidade para um desempenho ótimo. Abordagens existentes baseiam-se em heurísticas projetadas manualmente, na perplexidade dos modelos existentes, no treinamento de classificadores ou em engenharia cuidadosa de prompts, que exigem significativa experiência especializada e esforço de anotação humana, ao mesmo tempo em que introduzem viéses. Apresentamos o CritiQ, um novo método de seleção de dados que minera automaticamente critérios a partir de preferências humanas por qualidade de dados com apenas cerca de 30 pares anotados por humanos e realiza uma seleção eficiente de dados. O componente principal, CritiQ Flow, emprega um agente gerente para evoluir critérios de qualidade e agentes trabalhadores para fazer julgamentos em pares. Construímos uma base de conhecimento que extrai critérios de qualidade de trabalhos anteriores para impulsionar o CritiQ Flow. Em comparação com métodos baseados em perplexidade e classificadores, critérios verbais são mais interpretáveis e possuem valor reutilizável. Após derivar os critérios, treinamos o CritiQ Scorer para atribuir pontuações de qualidade e realizar uma seleção eficiente de dados. Demonstramos a eficácia de nosso método nos domínios de código, matemática e lógica, alcançando alta precisão em conjuntos de testes anotados por humanos. Para validar a qualidade dos dados selecionados, continuamos a treinar modelos Llama 3.1 e observamos um desempenho aprimorado em tarefas subsequentes em comparação com amostragem uniforme. Estudos de ablação validam os benefícios da base de conhecimento e do processo de reflexão. Analisamos como os critérios evoluem e a eficácia da votação majoritária.
English
Language model heavily depends on high-quality data for optimal performance.
Existing approaches rely on manually designed heuristics, the perplexity of
existing models, training classifiers, or careful prompt engineering, which
require significant expert experience and human annotation effort while
introduce biases. We introduce CritiQ, a novel data selection method that
automatically mines criteria from human preferences for data quality with only
sim30 human-annotated pairs and performs efficient data selection. The main
component, CritiQ Flow, employs a manager agent to evolve quality criteria and
worker agents to make pairwise judgments. We build a knowledge base that
extracts quality criteria from previous work to boost CritiQ Flow. Compared to
perplexity- and classifier- based methods, verbal criteria are more
interpretable and possess reusable value. After deriving the criteria, we train
the CritiQ Scorer to give quality scores and perform efficient data selection.
We demonstrate the effectiveness of our method in the code, math, and logic
domains, achieving high accuracy on human-annotated test sets. To validate the
quality of the selected data, we continually train Llama 3.1 models and observe
improved performance on downstream tasks compared to uniform sampling. Ablation
studies validate the benefits of the knowledge base and the reflection process.
We analyze how criteria evolve and the effectiveness of majority voting.Summary
AI-Generated Summary