ChatPaper.aiChatPaper

Pulire Prima, Allineare Dopo: Benchmarking della Pulizia dei Dati di Preferenza per un Allineamento Affidabile degli LLM

Clean First, Align Later: Benchmarking Preference Data Cleaning for Reliable LLM Alignment

September 28, 2025
Autori: Min-Hsuan Yeh, Yixuan Li
cs.AI

Abstract

Il feedback umano svolge un ruolo fondamentale nell'allineamento dei grandi modelli linguistici (LLM) con le preferenze umane. Tuttavia, tale feedback è spesso rumoroso o incoerente, il che può degradare la qualità dei modelli di ricompensa e ostacolare l'allineamento. Sebbene siano stati proposti vari metodi automatizzati di pulizia dei dati per mitigare questo problema, manca ancora una valutazione sistematica della loro efficacia e generalizzabilità. Per colmare questa lacuna, introduciamo il primo benchmark completo per valutare 13 metodi di pulizia dei dati di preferenza nel contesto dell'allineamento dei LLM. PrefCleanBench offre un protocollo standardizzato per valutare le strategie di pulizia in termini di prestazioni di allineamento e generalizzabilità su diversi dataset, architetture di modelli e algoritmi di ottimizzazione. Unificando metodi disparati e confrontandoli rigorosamente, scopriamo i fattori chiave che determinano il successo della pulizia dei dati nei compiti di allineamento. Questo benchmark getta le basi per approcci principiati e riproducibili al miglioramento dell'allineamento dei LLM attraverso una migliore qualità dei dati, evidenziando il ruolo cruciale ma poco esplorato della pre-elaborazione dei dati nello sviluppo responsabile dell'IA. Rilasciamo implementazioni modulari di tutti i metodi per catalizzare ulteriori ricerche: https://github.com/deeplearning-wisc/PrefCleanBench.
English
Human feedback plays a pivotal role in aligning large language models (LLMs) with human preferences. However, such feedback is often noisy or inconsistent, which can degrade the quality of reward models and hinder alignment. While various automated data cleaning methods have been proposed to mitigate this issue, a systematic evaluation of their effectiveness and generalizability remains lacking. To bridge this gap, we introduce the first comprehensive benchmark for evaluating 13 preference data cleaning methods in the context of LLM alignment. PrefCleanBench offers a standardized protocol to assess cleaning strategies in terms of alignment performance and generalizability across diverse datasets, model architectures, and optimization algorithms. By unifying disparate methods and rigorously comparing them, we uncover key factors that determine the success of data cleaning in alignment tasks. This benchmark lays the groundwork for principled and reproducible approaches to improving LLM alignment through better data quality-highlighting the crucial but underexplored role of data preprocessing in responsible AI development. We release modular implementations of all methods to catalyze further research: https://github.com/deeplearning-wisc/PrefCleanBench.
PDF72September 30, 2025