ChatPaper.aiChatPaper

J1: Стимулирование мышления в LLM-как-судье с помощью обучения с подкреплением

J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning

May 15, 2025
Авторы: Chenxi Whitehouse, Tianlu Wang, Ping Yu, Xian Li, Jason Weston, Ilia Kulikov, Swarnadeep Saha
cs.AI

Аннотация

Прогресс в области ИИ ограничен качеством оценки, и мощные модели LLM-as-a-Judge доказали свою эффективность как ключевое решение. Улучшенная способность к суждению достигается за счет более сильного цепочечного рассуждения, что подчеркивает необходимость поиска оптимальных подходов к обучению таких моделей мышлению. В данной работе мы представляем J1 — подход к обучению таких моделей с использованием обучения с подкреплением. Наш метод преобразует как проверяемые, так и непроверяемые запросы в задачи суждения с проверяемыми вознаграждениями, которые стимулируют мышление и снижают предвзятость суждений. В частности, наш подход превосходит все существующие модели размером 8B или 70B, включая модели, дистиллированные из DeepSeek-R1. J1 также превосходит o1-mini и даже R1 на некоторых тестах, несмотря на обучение модели меньшего размера. Мы проводим анализ и сравнение моделей Pairwise-J1 и Pointwise-J1, рецептов обучения в офлайн и онлайн режимах, стратегий вознаграждения, начальных запросов, а также вариаций длины и содержания рассуждений. Мы обнаруживаем, что наши модели принимают более качественные решения, обучаясь формулировать критерии оценки, сравнивать с самостоятельно сгенерированными эталонными ответами и переоценивать корректность ответов модели.
English
The progress of AI is bottlenecked by the quality of evaluation, and powerful LLM-as-a-Judge models have proved to be a core solution. Improved judgment ability is enabled by stronger chain-of-thought reasoning, motivating the need to find the best recipes for training such models to think. In this work we introduce J1, a reinforcement learning approach to training such models. Our method converts both verifiable and non-verifiable prompts to judgment tasks with verifiable rewards that incentivize thinking and mitigate judgment bias. In particular, our approach outperforms all other existing 8B or 70B models when trained at those sizes, including models distilled from DeepSeek-R1. J1 also outperforms o1-mini, and even R1 on some benchmarks, despite training a smaller model. We provide analysis and ablations comparing Pairwise-J1 vs Pointwise-J1 models, offline vs online training recipes, reward strategies, seed prompts, and variations in thought length and content. We find that our models make better judgments by learning to outline evaluation criteria, comparing against self-generated reference answers, and re-evaluating the correctness of model responses.

Summary

AI-Generated Summary

PDF142May 16, 2025