RubricBench: Согласование модельно-генерируемых рубрик с человеческими стандартами

Аннотация

По мере того как выравнивание больших языковых моделей (LLM) эволюционирует от простых завершений текста к сложному, высокоразвитому генеративному синтезу, оценочные модели все чаще смещаются в сторону рубрикатор-ориентированной оценки для снижения поверхностных смещений. Однако в сообществе отсутствует единый бенчмарк для оценки данной парадигмы, поскольку существующие бенчмарки лишены как необходимой дискриминативной сложности, так и эталонных аннотаций рубрик, требуемых для строгого анализа. Для устранения этого пробела мы представляем RubricBench — курируемый бенчмарк, содержащий 1 147 парных сравнений, специально разработанных для оценки надежности рубрикатор-ориентированной оценки. Наша методика построения использует многомерный конвейер фильтрации для отбора сложных примеров с нюансированной сложностью входных данных и вводящими в заблуждение поверхностными смещениями, дополняя каждый экспертными, атомарными рубриками, строго выведенными из инструкций. Всесторонние эксперименты выявляют значительный разрыв в возможностях между человеко-аннотированными и модельно-генерируемыми рубриками, указывая на то, что даже передовые модели испытывают трудности с автономным определением валидных критериев оценки, существенно отставая от результатов, полученных при участии человека.

English

As Large Language Model (LLM) alignment evolves from simple completions to complex, highly sophisticated generation, Reward Models are increasingly shifting toward rubric-guided evaluation to mitigate surface-level biases. However, the community lacks a unified benchmark to assess this evaluation paradigm, as existing benchmarks lack both the discriminative complexity and the ground-truth rubric annotations required for rigorous analysis. To bridge this gap, we introduce RubricBench, a curated benchmark with 1,147 pairwise comparisons specifically designed to assess the reliability of rubric-based evaluation. Our construction employs a multi-dimensional filtration pipeline to target hard samples featuring nuanced input complexity and misleading surface bias, augmenting each with expert-annotated, atomic rubrics derived strictly from instructions. Comprehensive experiments reveal a substantial capability gap between human-annotated and model-generated rubrics, indicating that even state-of-the-art models struggle to autonomously specify valid evaluation criteria, lagging considerably behind human-guided performance.

RubricBench: Согласование модельно-генерируемых рубрик с человеческими стандартами

RubricBench: Aligning Model-Generated Rubrics with Human Standards

Аннотация

Support