ChatPaper.aiChatPaper

Limpieza Primero, Alineación Después: Evaluación de la Limpieza de Datos de Preferencias para la Alineación Confiable de Modelos de Lenguaje Grande

Clean First, Align Later: Benchmarking Preference Data Cleaning for Reliable LLM Alignment

September 28, 2025
Autores: Min-Hsuan Yeh, Yixuan Li
cs.AI

Resumen

El feedback humano desempeña un papel fundamental en la alineación de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) con las preferencias humanas. Sin embargo, dicho feedback suele ser ruidoso o inconsistente, lo que puede degradar la calidad de los modelos de recompensa y dificultar la alineación. Aunque se han propuesto diversos métodos automatizados de limpieza de datos para mitigar este problema, aún falta una evaluación sistemática de su efectividad y generalización. Para abordar esta brecha, presentamos el primer benchmark integral para evaluar 13 métodos de limpieza de datos de preferencias en el contexto de la alineación de LLMs. PrefCleanBench ofrece un protocolo estandarizado para evaluar estrategias de limpieza en términos de rendimiento de alineación y generalización en diversos conjuntos de datos, arquitecturas de modelos y algoritmos de optimización. Al unificar métodos dispares y compararlos rigurosamente, descubrimos factores clave que determinan el éxito de la limpieza de datos en tareas de alineación. Este benchmark sienta las bases para enfoques fundamentados y reproducibles que mejoren la alineación de LLMs mediante una mejor calidad de los datos, destacando el papel crucial pero poco explorado del preprocesamiento de datos en el desarrollo responsable de la inteligencia artificial. Publicamos implementaciones modulares de todos los métodos para impulsar futuras investigaciones: https://github.com/deeplearning-wisc/PrefCleanBench.
English
Human feedback plays a pivotal role in aligning large language models (LLMs) with human preferences. However, such feedback is often noisy or inconsistent, which can degrade the quality of reward models and hinder alignment. While various automated data cleaning methods have been proposed to mitigate this issue, a systematic evaluation of their effectiveness and generalizability remains lacking. To bridge this gap, we introduce the first comprehensive benchmark for evaluating 13 preference data cleaning methods in the context of LLM alignment. PrefCleanBench offers a standardized protocol to assess cleaning strategies in terms of alignment performance and generalizability across diverse datasets, model architectures, and optimization algorithms. By unifying disparate methods and rigorously comparing them, we uncover key factors that determine the success of data cleaning in alignment tasks. This benchmark lays the groundwork for principled and reproducible approaches to improving LLM alignment through better data quality-highlighting the crucial but underexplored role of data preprocessing in responsible AI development. We release modular implementations of all methods to catalyze further research: https://github.com/deeplearning-wisc/PrefCleanBench.
PDF72September 30, 2025