ChatPaper.aiChatPaper

Eerst Opschonen, Daarop Afstemmen: Een Benchmark voor het Opschonen van Voorkeursdata voor Betrouwbare LLM-Afstemming

Clean First, Align Later: Benchmarking Preference Data Cleaning for Reliable LLM Alignment

September 28, 2025
Auteurs: Min-Hsuan Yeh, Yixuan Li
cs.AI

Samenvatting

Menselijke feedback speelt een cruciale rol bij het afstemmen van grote taalmmodellen (LLMs) op menselijke voorkeuren. Echter, dergelijke feedback is vaak onnauwkeurig of inconsistent, wat de kwaliteit van beloningsmodellen kan aantasten en de afstemming kan belemmeren. Hoewel verschillende geautomatiseerde methoden voor datareiniging zijn voorgesteld om dit probleem te verlichten, ontbreekt een systematische evaluatie van hun effectiviteit en generaliseerbaarheid. Om deze kloof te overbruggen, introduceren we de eerste uitgebreide benchmark voor het evalueren van 13 methoden voor het reinigen van voorkeursgegevens in de context van LLM-afstemming. PrefCleanBench biedt een gestandaardiseerd protocol om reinigingsstrategieën te beoordelen op basis van afstemmingsprestaties en generaliseerbaarheid over diverse datasets, modelarchitecturen en optimalisatiealgoritmen. Door verschillende methoden te verenigen en rigoureus te vergelijken, onthullen we belangrijke factoren die het succes van datareiniging in afstemmingstaken bepalen. Deze benchmark legt de basis voor principiële en reproduceerbare benaderingen om LLM-afstemming te verbeteren door betere datakwaliteit, wat de cruciale maar onderbelichte rol van datavoorbewerking in verantwoorde AI-ontwikkeling benadrukt. We geven modulaire implementaties van alle methoden vrij om verder onderzoek te stimuleren: https://github.com/deeplearning-wisc/PrefCleanBench.
English
Human feedback plays a pivotal role in aligning large language models (LLMs) with human preferences. However, such feedback is often noisy or inconsistent, which can degrade the quality of reward models and hinder alignment. While various automated data cleaning methods have been proposed to mitigate this issue, a systematic evaluation of their effectiveness and generalizability remains lacking. To bridge this gap, we introduce the first comprehensive benchmark for evaluating 13 preference data cleaning methods in the context of LLM alignment. PrefCleanBench offers a standardized protocol to assess cleaning strategies in terms of alignment performance and generalizability across diverse datasets, model architectures, and optimization algorithms. By unifying disparate methods and rigorously comparing them, we uncover key factors that determine the success of data cleaning in alignment tasks. This benchmark lays the groundwork for principled and reproducible approaches to improving LLM alignment through better data quality-highlighting the crucial but underexplored role of data preprocessing in responsible AI development. We release modular implementations of all methods to catalyze further research: https://github.com/deeplearning-wisc/PrefCleanBench.
PDF72September 30, 2025