CritiQ: 人間の選好からデータ品質基準を抽出する
CritiQ: Mining Data Quality Criteria from Human Preferences
February 26, 2025
著者: Honglin Guo, Kai Lv, Qipeng Guo, Tianyi Liang, Zhiheng Xi, Demin Song, Qiuyinzhe Zhang, Yu Sun, Kai Chen, Xipeng Qiu, Tao Gui
cs.AI
要旨
言語モデルの最適な性能は、高品質なデータに大きく依存している。既存のアプローチでは、手動で設計されたヒューリスティクス、既存モデルのパープレキシティ、分類器のトレーニング、または慎重なプロンプトエンジニアリングに依存しており、これらは多大な専門知識と人的アノテーション作業を必要とする一方で、バイアスを導入する可能性がある。本論文では、CritiQという新しいデータ選択手法を提案する。CritiQは、わずか30組の人手アノテーションペアから人間の選好に基づくデータ品質基準を自動的に抽出し、効率的なデータ選択を行う。主要コンポーネントであるCritiQ Flowは、品質基準を進化させるマネージャーエージェントと、ペアワイズ判断を行うワーカーエージェントを採用している。また、CritiQ Flowを強化するために、過去の研究から品質基準を抽出した知識ベースを構築する。パープレキシティや分類器ベースの手法と比較して、言語化された基準はより解釈可能で再利用価値が高い。基準を導出した後、CritiQ Scorerをトレーニングして品質スコアを付け、効率的なデータ選択を行う。本手法の有効性を、コード、数学、論理の領域で実証し、人手アノテーションテストセットで高い精度を達成した。選択されたデータの品質を検証するために、Llama 3.1モデルを継続的にトレーニングし、一様サンプリングと比較して下流タスクでの性能向上を観察した。アブレーションスタディにより、知識ベースとリフレクションプロセスの利点を検証した。また、基準がどのように進化するか、および多数決の有効性を分析した。
English
Language model heavily depends on high-quality data for optimal performance.
Existing approaches rely on manually designed heuristics, the perplexity of
existing models, training classifiers, or careful prompt engineering, which
require significant expert experience and human annotation effort while
introduce biases. We introduce CritiQ, a novel data selection method that
automatically mines criteria from human preferences for data quality with only
sim30 human-annotated pairs and performs efficient data selection. The main
component, CritiQ Flow, employs a manager agent to evolve quality criteria and
worker agents to make pairwise judgments. We build a knowledge base that
extracts quality criteria from previous work to boost CritiQ Flow. Compared to
perplexity- and classifier- based methods, verbal criteria are more
interpretable and possess reusable value. After deriving the criteria, we train
the CritiQ Scorer to give quality scores and perform efficient data selection.
We demonstrate the effectiveness of our method in the code, math, and logic
domains, achieving high accuracy on human-annotated test sets. To validate the
quality of the selected data, we continually train Llama 3.1 models and observe
improved performance on downstream tasks compared to uniform sampling. Ablation
studies validate the benefits of the knowledge base and the reflection process.
We analyze how criteria evolve and the effectiveness of majority voting.Summary
AI-Generated Summary