ViLBench: Набор инструментов для моделирования вознаграждений в задачах обработки визуально-языковых данных

Аннотация

Модели с процессно-ориентированным вознаграждением (PRMs) представляют собой детализированные функции, которые предоставляют пошаговую обратную связь на ответы модели, способствуя эффективному выбору траекторий рассуждений для сложных задач. Несмотря на их преимущества, оценка PRMs остается недостаточно изученной, особенно в мультимодальной области. Чтобы восполнить этот пробел, в данной работе сначала проводится сравнительный анализ современных крупных языковых моделей для обработки изображений (VLLMs) в двух ролях: как моделей с выходным вознаграждением (ORMs) и как процессно-ориентированных моделей вознаграждения (PRMs) на нескольких наборах данных для задач "визуальный язык". Результаты показывают, что ни ORM, ни PRM не демонстрируют стабильного превосходства во всех задачах, а более мощные VLLMs не обязательно обеспечивают лучшее качество вознаграждения. Для дальнейшего развития оценки мы представляем ViLBench — набор данных для задач "визуальный язык", который требует интенсивного использования процессно-ориентированных сигналов вознаграждения. Примечательно, что GPT-4o от OpenAI с использованием цепочки рассуждений (CoT) достигает точности всего 27,3%, что подчеркивает сложность этого набора данных для современных VLLMs. Наконец, мы предварительно демонстрируем многообещающий подход к сокращению разрыва между общими VLLMs и моделями вознаграждения — собрав 73,6 тыс. данных процессно-ориентированного вознаграждения для задач "визуальный язык" с использованием улучшенного алгоритма поиска по дереву, наша модель объемом 3 млрд параметров достигает среднего улучшения на 3,3% по сравнению со стандартным CoT и до 2,5% по сравнению с её ненатренированной версией на ViLBench, выбирая генерации OpenAI o1. Мы публикуем реализацию по адресу https://ucsc-vlaa.github.io/ViLBench вместе с нашим кодом, моделью и данными.

English

Process-supervised reward models serve as a fine-grained function that provides detailed step-wise feedback to model responses, facilitating effective selection of reasoning trajectories for complex tasks. Despite its advantages, evaluation on PRMs remains less explored, especially in the multimodal domain. To address this gap, this paper first benchmarks current vision large language models (VLLMs) as two types of reward models: output reward models (ORMs) and process reward models (PRMs) on multiple vision-language benchmarks, which reveal that neither ORM nor PRM consistently outperforms across all tasks, and superior VLLMs do not necessarily yield better rewarding performance. To further advance evaluation, we introduce ViLBench, a vision-language benchmark designed to require intensive process reward signals. Notably, OpenAI's GPT-4o with Chain-of-Thought (CoT) achieves only 27.3% accuracy, indicating the benchmark's challenge for current VLLMs. Lastly, we preliminarily showcase a promising pathway towards bridging the gap between general VLLMs and reward models -- by collecting 73.6K vision-language process reward data using an enhanced tree-search algorithm, our 3B model is able to achieve an average improvement of 3.3% over standard CoT and up to 2.5% compared to its untrained counterpart on ViLBench by selecting OpenAI o1's generations. We release the implementations at https://ucsc-vlaa.github.io/ViLBench with our code, model, and data.

ViLBench: Набор инструментов для моделирования вознаграждений в задачах обработки визуально-языковых данных

ViLBench: A Suite for Vision-Language Process Reward Modeling

Аннотация

Support