ViLBench: Een Suite voor Beloningsmodellering van Visueel-Taalprocessen
ViLBench: A Suite for Vision-Language Process Reward Modeling
March 26, 2025
Auteurs: Haoqin Tu, Weitao Feng, Hardy Chen, Hui Liu, Xianfeng Tang, Cihang Xie
cs.AI
Samenvatting
Proces-gestuurde beloningsmodellen fungeren als een gedetailleerde functie die stap-voor-stap feedback geeft aan modelresponsen, waardoor een effectieve selectie van redeneertrajecten voor complexe taken wordt gefaciliteerd. Ondanks de voordelen blijft evaluatie van PRM's (Process Reward Models) onderbelicht, vooral in het multimodale domein. Om deze leemte aan te pakken, benchmarkt dit artikel eerst huidige vision large language models (VLLM's) als twee typen beloningsmodellen: output beloningsmodellen (ORM's) en proces beloningsmodellen (PRM's) op meerdere vision-language benchmarks. Dit laat zien dat noch ORM noch PRM consistent beter presteert over alle taken, en dat superieure VLLM's niet noodzakelijkerwijs tot betere beloningsprestaties leiden. Om de evaluatie verder te bevorderen, introduceren we ViLBench, een vision-language benchmark die intensieve procesbeloningssignalen vereist. Opvallend is dat OpenAI's GPT-4o met Chain-of-Thought (CoT) slechts 27,3% nauwkeurigheid behaalt, wat de uitdaging van de benchmark voor huidige VLLM's onderstreept. Tot slot tonen we voorlopig een veelbelovende weg om de kloof tussen algemene VLLM's en beloningsmodellen te overbruggen — door het verzamelen van 73,6K vision-language procesbeloningsgegevens met behulp van een verbeterd boomzoekalgoritme, is ons 3B-model in staat een gemiddelde verbetering van 3,3% te behalen ten opzichte van standaard CoT en tot 2,5% vergeleken met zijn ongetrainde tegenhanger op ViLBench door generaties van OpenAI o1 te selecteren. We maken de implementaties beschikbaar op https://ucsc-vlaa.github.io/ViLBench met onze code, model en gegevens.
English
Process-supervised reward models serve as a fine-grained function that
provides detailed step-wise feedback to model responses, facilitating effective
selection of reasoning trajectories for complex tasks. Despite its advantages,
evaluation on PRMs remains less explored, especially in the multimodal domain.
To address this gap, this paper first benchmarks current vision large language
models (VLLMs) as two types of reward models: output reward models (ORMs) and
process reward models (PRMs) on multiple vision-language benchmarks, which
reveal that neither ORM nor PRM consistently outperforms across all tasks, and
superior VLLMs do not necessarily yield better rewarding performance. To
further advance evaluation, we introduce ViLBench, a vision-language benchmark
designed to require intensive process reward signals. Notably, OpenAI's GPT-4o
with Chain-of-Thought (CoT) achieves only 27.3% accuracy, indicating the
benchmark's challenge for current VLLMs. Lastly, we preliminarily showcase a
promising pathway towards bridging the gap between general VLLMs and reward
models -- by collecting 73.6K vision-language process reward data using an
enhanced tree-search algorithm, our 3B model is able to achieve an average
improvement of 3.3% over standard CoT and up to 2.5% compared to its untrained
counterpart on ViLBench by selecting OpenAI o1's generations. We release the
implementations at https://ucsc-vlaa.github.io/ViLBench with our code, model,
and data.Summary
AI-Generated Summary