ChatPaper.aiChatPaper

ViLBench: Um Conjunto de Testes para Modelagem de Recompensas em Processamento Visão-Linguagem

ViLBench: A Suite for Vision-Language Process Reward Modeling

March 26, 2025
Autores: Haoqin Tu, Weitao Feng, Hardy Chen, Hui Liu, Xianfeng Tang, Cihang Xie
cs.AI

Resumo

Modelos de recompensa supervisionados por processo servem como uma função refinada que fornece feedback detalhado passo a passo para as respostas do modelo, facilitando a seleção eficaz de trajetórias de raciocínio para tarefas complexas. Apesar de suas vantagens, a avaliação de PRMs (Process Reward Models) ainda é pouco explorada, especialmente no domínio multimodal. Para abordar essa lacuna, este artigo primeiro avalia os atuais modelos de linguagem de grande escala para visão (VLLMs) como dois tipos de modelos de recompensa: modelos de recompensa de saída (ORMs) e modelos de recompensa de processo (PRMs) em vários benchmarks de visão e linguagem, o que revela que nem ORM nem PRM superam consistentemente em todas as tarefas, e VLLMs superiores não necessariamente produzem melhor desempenho de recompensa. Para avançar ainda mais a avaliação, introduzimos o ViLBench, um benchmark de visão e linguagem projetado para exigir sinais intensivos de recompensa de processo. Notavelmente, o GPT-4o da OpenAI com Chain-of-Thought (CoT) alcança apenas 27,3% de precisão, indicando o desafio do benchmark para os atuais VLLMs. Por fim, mostramos preliminarmente um caminho promissor para preencher a lacuna entre VLLMs gerais e modelos de recompensa — ao coletar 73,6K dados de recompensa de processo de visão e linguagem usando um algoritmo aprimorado de busca em árvore, nosso modelo de 3B consegue uma melhoria média de 3,3% sobre o CoT padrão e até 2,5% em comparação com sua contraparte não treinada no ViLBench, selecionando as gerações do OpenAI o1. Disponibilizamos as implementações em https://ucsc-vlaa.github.io/ViLBench com nosso código, modelo e dados.
English
Process-supervised reward models serve as a fine-grained function that provides detailed step-wise feedback to model responses, facilitating effective selection of reasoning trajectories for complex tasks. Despite its advantages, evaluation on PRMs remains less explored, especially in the multimodal domain. To address this gap, this paper first benchmarks current vision large language models (VLLMs) as two types of reward models: output reward models (ORMs) and process reward models (PRMs) on multiple vision-language benchmarks, which reveal that neither ORM nor PRM consistently outperforms across all tasks, and superior VLLMs do not necessarily yield better rewarding performance. To further advance evaluation, we introduce ViLBench, a vision-language benchmark designed to require intensive process reward signals. Notably, OpenAI's GPT-4o with Chain-of-Thought (CoT) achieves only 27.3% accuracy, indicating the benchmark's challenge for current VLLMs. Lastly, we preliminarily showcase a promising pathway towards bridging the gap between general VLLMs and reward models -- by collecting 73.6K vision-language process reward data using an enhanced tree-search algorithm, our 3B model is able to achieve an average improvement of 3.3% over standard CoT and up to 2.5% compared to its untrained counterpart on ViLBench by selecting OpenAI o1's generations. We release the implementations at https://ucsc-vlaa.github.io/ViLBench with our code, model, and data.

Summary

AI-Generated Summary

PDF72March 27, 2025