Nettoyer d’abord, aligner ensuite : Évaluation comparative du nettoyage des données de préférence pour un alignement fiable des modèles de langage de grande taille
Clean First, Align Later: Benchmarking Preference Data Cleaning for Reliable LLM Alignment
September 28, 2025
papers.authors: Min-Hsuan Yeh, Yixuan Li
cs.AI
papers.abstract
Le feedback humain joue un rôle central dans l'alignement des grands modèles de langage (LLMs) avec les préférences humaines. Cependant, ce feedback est souvent bruité ou incohérent, ce qui peut dégrader la qualité des modèles de récompense et entraver l'alignement. Bien que diverses méthodes automatisées de nettoyage des données aient été proposées pour atténuer ce problème, une évaluation systématique de leur efficacité et de leur généralisabilité fait encore défaut. Pour combler cette lacune, nous introduisons le premier benchmark complet pour évaluer 13 méthodes de nettoyage des données de préférence dans le contexte de l'alignement des LLMs. PrefCleanBench propose un protocole standardisé pour évaluer les stratégies de nettoyage en termes de performance d'alignement et de généralisabilité sur divers ensembles de données, architectures de modèles et algorithmes d'optimisation. En unifiant des méthodes disparates et en les comparant rigoureusement, nous mettons en lumière les facteurs clés qui déterminent le succès du nettoyage des données dans les tâches d'alignement. Ce benchmark jette les bases d'approches méthodiques et reproductibles pour améliorer l'alignement des LLMs grâce à une meilleure qualité des données, soulignant ainsi le rôle crucial mais encore peu exploré du prétraitement des données dans le développement responsable de l'IA. Nous publions des implémentations modulaires de toutes les méthodes pour catalyser la recherche future : https://github.com/deeplearning-wisc/PrefCleanBench.
English
Human feedback plays a pivotal role in aligning large language models (LLMs)
with human preferences. However, such feedback is often noisy or inconsistent,
which can degrade the quality of reward models and hinder alignment. While
various automated data cleaning methods have been proposed to mitigate this
issue, a systematic evaluation of their effectiveness and generalizability
remains lacking. To bridge this gap, we introduce the first comprehensive
benchmark for evaluating 13 preference data cleaning methods in the context of
LLM alignment. PrefCleanBench offers a standardized protocol to assess cleaning
strategies in terms of alignment performance and generalizability across
diverse datasets, model architectures, and optimization algorithms. By unifying
disparate methods and rigorously comparing them, we uncover key factors that
determine the success of data cleaning in alignment tasks. This benchmark lays
the groundwork for principled and reproducible approaches to improving LLM
alignment through better data quality-highlighting the crucial but
underexplored role of data preprocessing in responsible AI development. We
release modular implementations of all methods to catalyze further research:
https://github.com/deeplearning-wisc/PrefCleanBench.