Временные языковые модели с самонаграждением: разделение выбранного и отклоненного через прошлое-будущее

Аннотация

Модели языка с самонаграждением предлагают архитектуру, в которой крупные языковые модели (LLM) как генерируют ответы, так и оценивают свои собственные выходные данные с помощью подхода LLM-as-a-Judge, динамически улучшая свои генеративные способности через итеративную оптимизацию прямых предпочтений (DPO). Однако наш анализ выявляет критическое ограничение существующих парадигм самонаграждения: синхронное улучшение выбранных и отвергнутых ответов постепенно сокращает репрезентативную разницу между контрастными образцами, подрывая эффективное обучение на основе предпочтений. Мы предлагаем модели языка с временным самонаграждением, которые стратегически координируют прошлые, текущие и будущие генерации модели для поддержания обучающих сигналов. Наш двухфазный фреймворк включает: (1) Анкерное отвержение — фиксацию отвергнутых ответов с использованием выходных данных начальной модели из прошлого и (2) Будущее-ориентированный выбор — динамическое курирование выбранных образцов с использованием предсказаний модели следующего поколения. Многочисленные эксперименты на трех семействах моделей (Llama, Qwen, Mistral) и различных размерах моделей (Llama3B/8B/70B) демонстрируют значительные улучшения при обучении с использованием нашего метода по сравнению с самонаграждением при тех же вычислительных ресурсах. Например, Llama3.1-8B достигает показателя 29.44 по шкале win rate на AlpacaEval 2.0 с нашим методом, превосходя базовый уровень самонаграждения (19.69) на 9.75. Примечательно, что наш метод также демонстрирует превосходную обобщаемость вне распределения в задачах математического рассуждения (GSM8K), вопросно-ответных задач на основе знаний (ARC, TruthfulQA) и генерации кода (HumanEval), даже несмотря на то, что мы не собирали такие данные для обучения специально.

English

Self-Rewarding Language Models propose an architecture in which the Large Language Models(LLMs) both generates responses and evaluates its own outputs via LLM-as-a-Judge prompting, dynamically improving its generative capabilities through iterative Direct Preference Optimization (DPO). However, our analysis reveals a critical limitation in existing Self-Rewarding paradigms: the synchronized improvement of chosen and rejected responses progressively narrows the representational difference between contrasting samples, undermining effective preference learning. We propose Temporal Self-Rewarding Language Models that strategically coordinate past, present, and future model generations to sustain learning signals. Our dual-phase framework introduces: (1) Anchored Rejection - fixing rejected responses using the past initial model's outputs and (2) Future-Guided Chosen - dynamically curating chosen samples using next-generation model predictions. Extensive experiments across three model families (Llama, Qwen, Mistral) and different model sizes (Llama3B/8B/70B) demonstrate significant improvements when trained with our method compared to Self-Rewarding using same computation resources. For example, Llama3.1-8B reaches a 29.44 win rate on AlpacaEval 2.0 with our method, outperforming the Self-Rewarding baseline (19.69) by 9.75. Notably, our method also demonstrates superior out-of-distribution generalization across mathematical reasoning (GSM8K), knowledge-based QA (ARC, TruthfulQA), and code generation (HumanEval) tasks, even though we do not specifically collect such training data.

Временные языковые модели с самонаграждением: разделение выбранного и отклоненного через прошлое-будущее

Temporal Self-Rewarding Language Models: Decoupling Chosen-Rejected via Past-Future

Аннотация

Support