ChatPaper.aiChatPaper

Saubermachen zuerst, Ausrichten später: Benchmarking der Präferenzdatenbereinigung für zuverlässige LLM-Ausrichtung

Clean First, Align Later: Benchmarking Preference Data Cleaning for Reliable LLM Alignment

September 28, 2025
papers.authors: Min-Hsuan Yeh, Yixuan Li
cs.AI

papers.abstract

Menschliches Feedback spielt eine entscheidende Rolle bei der Ausrichtung großer Sprachmodelle (LLMs) an menschlichen Präferenzen. Solches Feedback ist jedoch oft verrauscht oder inkonsistent, was die Qualität von Belohnungsmodellen beeinträchtigen und die Ausrichtung behindern kann. Obwohl verschiedene automatisierte Methoden zur Datenbereinigung vorgeschlagen wurden, um dieses Problem zu mildern, fehlt es bisher an einer systematischen Bewertung ihrer Wirksamkeit und Generalisierbarkeit. Um diese Lücke zu schließen, führen wir den ersten umfassenden Benchmark zur Bewertung von 13 Methoden zur Bereinigung von Präferenzdaten im Kontext der LLM-Ausrichtung ein. PrefCleanBench bietet ein standardisiertes Protokoll, um Bereinigungsstrategien hinsichtlich der Ausrichtungsleistung und Generalisierbarkeit über verschiedene Datensätze, Modellarchitekturen und Optimierungsalgorithmen hinweg zu bewerten. Durch die Vereinheitlichung unterschiedlicher Methoden und deren rigorosen Vergleich decken wir Schlüsselfaktoren auf, die den Erfolg der Datenbereinigung bei Ausrichtungsaufgaben bestimmen. Dieser Benchmark legt den Grundstein für prinzipiengeleitete und reproduzierbare Ansätze zur Verbesserung der LLM-Ausrichtung durch eine höhere Datenqualität – und hebt die entscheidende, aber bisher wenig erforschte Rolle der Datenvorverarbeitung in der verantwortungsvollen KI-Entwicklung hervor. Wir veröffentlichen modulare Implementierungen aller Methoden, um weitere Forschungen anzuregen: https://github.com/deeplearning-wisc/PrefCleanBench.
English
Human feedback plays a pivotal role in aligning large language models (LLMs) with human preferences. However, such feedback is often noisy or inconsistent, which can degrade the quality of reward models and hinder alignment. While various automated data cleaning methods have been proposed to mitigate this issue, a systematic evaluation of their effectiveness and generalizability remains lacking. To bridge this gap, we introduce the first comprehensive benchmark for evaluating 13 preference data cleaning methods in the context of LLM alignment. PrefCleanBench offers a standardized protocol to assess cleaning strategies in terms of alignment performance and generalizability across diverse datasets, model architectures, and optimization algorithms. By unifying disparate methods and rigorously comparing them, we uncover key factors that determine the success of data cleaning in alignment tasks. This benchmark lays the groundwork for principled and reproducible approaches to improving LLM alignment through better data quality-highlighting the crucial but underexplored role of data preprocessing in responsible AI development. We release modular implementations of all methods to catalyze further research: https://github.com/deeplearning-wisc/PrefCleanBench.
PDF72September 30, 2025