VLRewardBench: Сложный бенчмарк для моделей генерации вознаграждений визуально-языковых систем
VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models
November 26, 2024
Авторы: Lei Li, Yuancheng Wei, Zhihui Xie, Xuqing Yang, Yifan Song, Peiyi Wang, Chenxin An, Tianyu Liu, Sujian Li, Bill Yuchen Lin, Lingpeng Kong, Qi Liu
cs.AI
Аннотация
Модели вознаграждения на основе зрительно-языковой генерации (VL-GenRM) играют ключевую роль в выравнивании и оценке мультимодальных систем искусственного интеллекта, однако собственная оценка остается мало исследованной. Существующие методы оценки в основном опираются на предпочтительные ярлыки, размеченные искусственным интеллектом в традиционных задачах зрительно-языковой обработки, что может внести предвзятость и часто не позволяет эффективно проверить современные модели. Для преодоления этих ограничений мы представляем VL-RewardBench, обширный бенчмарк, охватывающий общие мультимодальные запросы, обнаружение визуальных галлюцинаций и сложные задачи рассуждения. Через нашу аннотационную платформу, поддерживаемую искусственным интеллектом, объединяющую выборку образцов с верификацией человеком, мы составляем 1 250 высококачественных примеров, специально разработанных для проверки ограничений модели. Комплексная оценка 16 ведущих крупных моделей зрительно-языковой обработки показывает эффективность VL-RewardBench в качестве сложной платформы, где даже GPT-4o достигает лишь 65,4% точности, а современные модели с открытым исходным кодом, такие как Qwen2-VL-72B, борются превзойти случайное угадывание. Важно, что результаты на VL-RewardBench сильно коррелируют (коэффициент корреляции Пирсона > 0,9) с точностью MMMU-Pro при использовании выборки Best-of-N с VL-GenRM. Эксперименты анализа раскрывают три ключевых исследования для улучшения VL-GenRM: (i) модели в основном терпят неудачу в базовых задачах визуального восприятия, а не в задачах рассуждения; (ii) выгоды от масштабирования во время вывода сильно варьируются в зависимости от мощности модели; и (iii) обучение VL-GenRM научиться судить существенно улучшает способность к суждению (+14,7% точности для 7B VL-GenRM). Мы считаем, что VL-RewardBench вместе с экспериментальными исследованиями станет ценным ресурсом для продвижения VL-GenRM.
English
Vision-language generative reward models (VL-GenRMs) play a crucial role in
aligning and evaluating multimodal AI systems, yet their own evaluation remains
under-explored. Current assessment methods primarily rely on AI-annotated
preference labels from traditional VL tasks, which can introduce biases and
often fail to effectively challenge state-of-the-art models. To address these
limitations, we introduce VL-RewardBench, a comprehensive benchmark spanning
general multimodal queries, visual hallucination detection, and complex
reasoning tasks. Through our AI-assisted annotation pipeline combining sample
selection with human verification, we curate 1,250 high-quality examples
specifically designed to probe model limitations. Comprehensive evaluation
across 16 leading large vision-language models, demonstrates VL-RewardBench's
effectiveness as a challenging testbed, where even GPT-4o achieves only 65.4%
accuracy, and state-of-the-art open-source models such as Qwen2-VL-72B,
struggle to surpass random-guessing. Importantly, performance on VL-RewardBench
strongly correlates (Pearson's r > 0.9) with MMMU-Pro accuracy using Best-of-N
sampling with VL-GenRMs. Analysis experiments uncover three critical insights
for improving VL-GenRMs: (i) models predominantly fail at basic visual
perception tasks rather than reasoning tasks; (ii) inference-time scaling
benefits vary dramatically by model capacity; and (iii) training VL-GenRMs to
learn to judge substantially boosts judgment capability (+14.7% accuracy for a
7B VL-GenRM). We believe VL-RewardBench along with the experimental insights
will become a valuable resource for advancing VL-GenRMs.Summary
AI-Generated Summary