ViLBench: Набор инструментов для моделирования вознаграждений в задачах обработки визуально-языковых данных
ViLBench: A Suite for Vision-Language Process Reward Modeling
March 26, 2025
Авторы: Haoqin Tu, Weitao Feng, Hardy Chen, Hui Liu, Xianfeng Tang, Cihang Xie
cs.AI
Аннотация
Модели с процессно-ориентированным вознаграждением (PRMs) представляют собой детализированные функции, которые предоставляют пошаговую обратную связь на ответы модели, способствуя эффективному выбору траекторий рассуждений для сложных задач. Несмотря на их преимущества, оценка PRMs остается недостаточно изученной, особенно в мультимодальной области. Чтобы восполнить этот пробел, в данной работе сначала проводится сравнительный анализ современных крупных языковых моделей для обработки изображений (VLLMs) в двух ролях: как моделей с выходным вознаграждением (ORMs) и как процессно-ориентированных моделей вознаграждения (PRMs) на нескольких наборах данных для задач "визуальный язык". Результаты показывают, что ни ORM, ни PRM не демонстрируют стабильного превосходства во всех задачах, а более мощные VLLMs не обязательно обеспечивают лучшее качество вознаграждения. Для дальнейшего развития оценки мы представляем ViLBench — набор данных для задач "визуальный язык", который требует интенсивного использования процессно-ориентированных сигналов вознаграждения. Примечательно, что GPT-4o от OpenAI с использованием цепочки рассуждений (CoT) достигает точности всего 27,3%, что подчеркивает сложность этого набора данных для современных VLLMs. Наконец, мы предварительно демонстрируем многообещающий подход к сокращению разрыва между общими VLLMs и моделями вознаграждения — собрав 73,6 тыс. данных процессно-ориентированного вознаграждения для задач "визуальный язык" с использованием улучшенного алгоритма поиска по дереву, наша модель объемом 3 млрд параметров достигает среднего улучшения на 3,3% по сравнению со стандартным CoT и до 2,5% по сравнению с её ненатренированной версией на ViLBench, выбирая генерации OpenAI o1. Мы публикуем реализацию по адресу https://ucsc-vlaa.github.io/ViLBench вместе с нашим кодом, моделью и данными.
English
Process-supervised reward models serve as a fine-grained function that
provides detailed step-wise feedback to model responses, facilitating effective
selection of reasoning trajectories for complex tasks. Despite its advantages,
evaluation on PRMs remains less explored, especially in the multimodal domain.
To address this gap, this paper first benchmarks current vision large language
models (VLLMs) as two types of reward models: output reward models (ORMs) and
process reward models (PRMs) on multiple vision-language benchmarks, which
reveal that neither ORM nor PRM consistently outperforms across all tasks, and
superior VLLMs do not necessarily yield better rewarding performance. To
further advance evaluation, we introduce ViLBench, a vision-language benchmark
designed to require intensive process reward signals. Notably, OpenAI's GPT-4o
with Chain-of-Thought (CoT) achieves only 27.3% accuracy, indicating the
benchmark's challenge for current VLLMs. Lastly, we preliminarily showcase a
promising pathway towards bridging the gap between general VLLMs and reward
models -- by collecting 73.6K vision-language process reward data using an
enhanced tree-search algorithm, our 3B model is able to achieve an average
improvement of 3.3% over standard CoT and up to 2.5% compared to its untrained
counterpart on ViLBench by selecting OpenAI o1's generations. We release the
implementations at https://ucsc-vlaa.github.io/ViLBench with our code, model,
and data.Summary
AI-Generated Summary