CritiQ: Extraktion von Datenqualitätskriterien aus menschlichen Präferenzen
CritiQ: Mining Data Quality Criteria from Human Preferences
February 26, 2025
Autoren: Honglin Guo, Kai Lv, Qipeng Guo, Tianyi Liang, Zhiheng Xi, Demin Song, Qiuyinzhe Zhang, Yu Sun, Kai Chen, Xipeng Qiu, Tao Gui
cs.AI
Zusammenfassung
Sprachmodelle sind in hohem Maße auf hochwertige Daten angewiesen, um optimale Leistung zu erzielen. Bestehende Ansätze stützen sich auf manuell entwickelte Heuristiken, die Perplexität bestehender Modelle, das Training von Klassifikatoren oder sorgfältiges Prompt-Engineering, was erhebliche Expertenkenntnisse und menschliche Annotationsarbeit erfordert und gleichzeitig Verzerrungen einführt. Wir stellen CritiQ vor, eine neuartige Methode zur Datenauswahl, die automatisch Kriterien aus menschlichen Präferenzen für die Datenqualität mit nur 30 simulierten menschlich annotierten Paaren extrahiert und eine effiziente Datenauswahl durchführt. Die Hauptkomponente, CritiQ Flow, verwendet einen Manager-Agenten, um Qualitätskriterien weiterzuentwickeln, und Worker-Agenten, um paarweise Urteile zu fällen. Wir erstellen eine Wissensdatenbank, die Qualitätskriterien aus früheren Arbeiten extrahiert, um CritiQ Flow zu unterstützen. Im Vergleich zu Perplexitäts- und Klassifikator-basierten Methoden sind verbale Kriterien besser interpretierbar und besitzen wiederverwendbaren Wert. Nach der Ableitung der Kriterien trainieren wir den CritiQ Scorer, um Qualitätsbewertungen zu vergeben und eine effiziente Datenauswahl durchzuführen. Wir demonstrieren die Wirksamkeit unserer Methode in den Bereichen Code, Mathematik und Logik und erreichen eine hohe Genauigkeit bei menschlich annotierten Testsets. Um die Qualität der ausgewählten Daten zu validieren, trainieren wir kontinuierlich Llama 3.1-Modelle und beobachten eine verbesserte Leistung bei nachgelagerten Aufgaben im Vergleich zur gleichmäßigen Stichprobenziehung. Ablationsstudien validieren die Vorteile der Wissensdatenbank und des Reflexionsprozesses. Wir analysieren, wie sich Kriterien entwickeln und die Effektivität von Mehrheitsentscheidungen.
English
Language model heavily depends on high-quality data for optimal performance.
Existing approaches rely on manually designed heuristics, the perplexity of
existing models, training classifiers, or careful prompt engineering, which
require significant expert experience and human annotation effort while
introduce biases. We introduce CritiQ, a novel data selection method that
automatically mines criteria from human preferences for data quality with only
sim30 human-annotated pairs and performs efficient data selection. The main
component, CritiQ Flow, employs a manager agent to evolve quality criteria and
worker agents to make pairwise judgments. We build a knowledge base that
extracts quality criteria from previous work to boost CritiQ Flow. Compared to
perplexity- and classifier- based methods, verbal criteria are more
interpretable and possess reusable value. After deriving the criteria, we train
the CritiQ Scorer to give quality scores and perform efficient data selection.
We demonstrate the effectiveness of our method in the code, math, and logic
domains, achieving high accuracy on human-annotated test sets. To validate the
quality of the selected data, we continually train Llama 3.1 models and observe
improved performance on downstream tasks compared to uniform sampling. Ablation
studies validate the benefits of the knowledge base and the reflection process.
We analyze how criteria evolve and the effectiveness of majority voting.Summary
AI-Generated Summary