ChatPaper.aiChatPaper

ViLBench: 視覚-言語処理報酬モデリングのためのスイート

ViLBench: A Suite for Vision-Language Process Reward Modeling

March 26, 2025
著者: Haoqin Tu, Weitao Feng, Hardy Chen, Hui Liu, Xianfeng Tang, Cihang Xie
cs.AI

要旨

プロセス監視型報酬モデルは、モデルの応答に対して詳細なステップごとのフィードバックを提供する細粒度の関数として機能し、複雑なタスクにおける推論軌跡の効果的な選択を促進します。その利点にもかかわらず、特にマルチモーダル領域におけるPRM(プロセス報酬モデル)の評価はまだ十分に検討されていません。このギャップを埋めるため、本論文ではまず、現在の視覚大規模言語モデル(VLLM)を2種類の報酬モデル、すなわち出力報酬モデル(ORM)とプロセス報酬モデル(PRM)として複数の視覚言語ベンチマークで評価しました。その結果、ORMもPRMもすべてのタスクで一貫して優れているわけではなく、優れたVLLMが必ずしも優れた報酬性能を発揮するわけではないことが明らかになりました。評価をさらに進めるため、我々は集中的なプロセス報酬信号を必要とする視覚言語ベンチマーク「ViLBench」を導入しました。注目すべきは、OpenAIのGPT-4o with Chain-of-Thought(CoT)がわずか27.3%の精度しか達成できなかったことで、このベンチマークが現在のVLLMにとって挑戦的であることを示しています。最後に、一般的なVLLMと報酬モデルのギャップを埋める有望な道筋を予備的に示しました。強化されたツリーサーチアルゴリズムを使用して73.6Kの視覚言語プロセス報酬データを収集し、OpenAI o1の生成を選択することで、我々の3Bモデルは標準的なCoTと比較して平均3.3%、未学習のモデルと比較して最大2.5%の改善をViLBenchで達成しました。我々は、コード、モデル、データとともに、実装をhttps://ucsc-vlaa.github.io/ViLBenchで公開しています。
English
Process-supervised reward models serve as a fine-grained function that provides detailed step-wise feedback to model responses, facilitating effective selection of reasoning trajectories for complex tasks. Despite its advantages, evaluation on PRMs remains less explored, especially in the multimodal domain. To address this gap, this paper first benchmarks current vision large language models (VLLMs) as two types of reward models: output reward models (ORMs) and process reward models (PRMs) on multiple vision-language benchmarks, which reveal that neither ORM nor PRM consistently outperforms across all tasks, and superior VLLMs do not necessarily yield better rewarding performance. To further advance evaluation, we introduce ViLBench, a vision-language benchmark designed to require intensive process reward signals. Notably, OpenAI's GPT-4o with Chain-of-Thought (CoT) achieves only 27.3% accuracy, indicating the benchmark's challenge for current VLLMs. Lastly, we preliminarily showcase a promising pathway towards bridging the gap between general VLLMs and reward models -- by collecting 73.6K vision-language process reward data using an enhanced tree-search algorithm, our 3B model is able to achieve an average improvement of 3.3% over standard CoT and up to 2.5% compared to its untrained counterpart on ViLBench by selecting OpenAI o1's generations. We release the implementations at https://ucsc-vlaa.github.io/ViLBench with our code, model, and data.

Summary

AI-Generated Summary

PDF72March 27, 2025