Limpeza Primeiro, Alinhamento Depois: Avaliação da Limpeza de Dados de Preferência para o Alinhamento Confiável de Modelos de Linguagem de Grande Escala
Clean First, Align Later: Benchmarking Preference Data Cleaning for Reliable LLM Alignment
September 28, 2025
Autores: Min-Hsuan Yeh, Yixuan Li
cs.AI
Resumo
O feedback humano desempenha um papel fundamental no alinhamento de grandes modelos de linguagem (LLMs) com as preferências humanas. No entanto, esse feedback frequentemente é ruidoso ou inconsistente, o que pode degradar a qualidade dos modelos de recompensa e dificultar o alinhamento. Embora diversos métodos automatizados de limpeza de dados tenham sido propostos para mitigar esse problema, ainda falta uma avaliação sistemática de sua eficácia e generalizabilidade. Para preencher essa lacuna, introduzimos o primeiro benchmark abrangente para avaliar 13 métodos de limpeza de dados de preferência no contexto do alinhamento de LLMs. O PrefCleanBench oferece um protocolo padronizado para avaliar estratégias de limpeza em termos de desempenho de alinhamento e generalizabilidade em diversos conjuntos de dados, arquiteturas de modelos e algoritmos de otimização. Ao unificar métodos distintos e compará-los rigorosamente, descobrimos fatores-chave que determinam o sucesso da limpeza de dados em tarefas de alinhamento. Esse benchmark estabelece as bases para abordagens fundamentadas e reproduzíveis de melhoria do alinhamento de LLMs por meio de uma melhor qualidade dos dados, destacando o papel crucial, mas pouco explorado, do pré-processamento de dados no desenvolvimento responsável de IA. Disponibilizamos implementações modulares de todos os métodos para catalisar novas pesquisas: https://github.com/deeplearning-wisc/PrefCleanBench.
English
Human feedback plays a pivotal role in aligning large language models (LLMs)
with human preferences. However, such feedback is often noisy or inconsistent,
which can degrade the quality of reward models and hinder alignment. While
various automated data cleaning methods have been proposed to mitigate this
issue, a systematic evaluation of their effectiveness and generalizability
remains lacking. To bridge this gap, we introduce the first comprehensive
benchmark for evaluating 13 preference data cleaning methods in the context of
LLM alignment. PrefCleanBench offers a standardized protocol to assess cleaning
strategies in terms of alignment performance and generalizability across
diverse datasets, model architectures, and optimization algorithms. By unifying
disparate methods and rigorously comparing them, we uncover key factors that
determine the success of data cleaning in alignment tasks. This benchmark lays
the groundwork for principled and reproducible approaches to improving LLM
alignment through better data quality-highlighting the crucial but
underexplored role of data preprocessing in responsible AI development. We
release modular implementations of all methods to catalyze further research:
https://github.com/deeplearning-wisc/PrefCleanBench.