ChatPaper.aiChatPaper

Сначала очистка, затем согласование: тестирование методов очистки данных о предпочтениях для надежного согласования языковых моделей

Clean First, Align Later: Benchmarking Preference Data Cleaning for Reliable LLM Alignment

September 28, 2025
Авторы: Min-Hsuan Yeh, Yixuan Li
cs.AI

Аннотация

Обратная связь от людей играет ключевую роль в согласовании крупных языковых моделей (LLM) с человеческими предпочтениями. Однако такая обратная связь часто бывает зашумленной или противоречивой, что может ухудшить качество моделей вознаграждения и затруднить согласование. Хотя для смягчения этой проблемы было предложено множество автоматизированных методов очистки данных, систематическая оценка их эффективности и обобщаемости остается недостаточной. Чтобы заполнить этот пробел, мы представляем первый всеобъемлющий бенчмарк для оценки 13 методов очистки данных о предпочтениях в контексте согласования LLM. PrefCleanBench предлагает стандартизированный протокол для оценки стратегий очистки с точки зрения производительности согласования и обобщаемости на различных наборах данных, архитектурах моделей и алгоритмах оптимизации. Унифицируя различные методы и тщательно сравнивая их, мы выявляем ключевые факторы, определяющие успех очистки данных в задачах согласования. Этот бенчмарк закладывает основу для принципиальных и воспроизводимых подходов к улучшению согласования LLM за счет повышения качества данных, подчеркивая важную, но недостаточно изученную роль предварительной обработки данных в ответственном развитии ИИ. Мы публикуем модульные реализации всех методов для стимулирования дальнейших исследований: https://github.com/deeplearning-wisc/PrefCleanBench.
English
Human feedback plays a pivotal role in aligning large language models (LLMs) with human preferences. However, such feedback is often noisy or inconsistent, which can degrade the quality of reward models and hinder alignment. While various automated data cleaning methods have been proposed to mitigate this issue, a systematic evaluation of their effectiveness and generalizability remains lacking. To bridge this gap, we introduce the first comprehensive benchmark for evaluating 13 preference data cleaning methods in the context of LLM alignment. PrefCleanBench offers a standardized protocol to assess cleaning strategies in terms of alignment performance and generalizability across diverse datasets, model architectures, and optimization algorithms. By unifying disparate methods and rigorously comparing them, we uncover key factors that determine the success of data cleaning in alignment tasks. This benchmark lays the groundwork for principled and reproducible approaches to improving LLM alignment through better data quality-highlighting the crucial but underexplored role of data preprocessing in responsible AI development. We release modular implementations of all methods to catalyze further research: https://github.com/deeplearning-wisc/PrefCleanBench.
PDF72September 30, 2025