ChatPaper.aiChatPaper

ViLBench : Une Suite pour la Modélisation des Récompenses dans le Traitement Vision-Langage

ViLBench: A Suite for Vision-Language Process Reward Modeling

March 26, 2025
Auteurs: Haoqin Tu, Weitao Feng, Hardy Chen, Hui Liu, Xianfeng Tang, Cihang Xie
cs.AI

Résumé

Les modèles de récompense supervisés par processus servent de fonction granulaire qui fournit un retour d'information détaillé étape par étape sur les réponses du modèle, facilitant ainsi la sélection efficace des trajectoires de raisonnement pour des tâches complexes. Malgré leurs avantages, l'évaluation des PRM (Process Reward Models) reste peu explorée, en particulier dans le domaine multimodal. Pour combler cette lacune, cet article commence par évaluer les modèles de langage visuel de grande taille (VLLMs) actuels en tant que deux types de modèles de récompense : les modèles de récompense de sortie (ORMs) et les modèles de récompense de processus (PRMs) sur plusieurs benchmarks vision-langage. Les résultats révèlent que ni l'ORM ni le PRM ne surpassent systématiquement l'autre sur toutes les tâches, et que les VLLMs supérieurs ne produisent pas nécessairement de meilleures performances de récompense. Pour aller plus loin dans l'évaluation, nous introduisons ViLBench, un benchmark vision-langage conçu pour nécessiter des signaux de récompense de processus intensifs. Notamment, GPT-4o d'OpenAI avec la méthode Chain-of-Thought (CoT) n'atteint qu'une précision de 27,3 %, ce qui indique le défi que représente ce benchmark pour les VLLMs actuels. Enfin, nous présentons de manière préliminaire une voie prometteuse pour combler l'écart entre les VLLMs généraux et les modèles de récompense : en collectant 73,6K données de récompense de processus vision-langage à l'aide d'un algorithme de recherche arborescente amélioré, notre modèle de 3B parvient à obtenir une amélioration moyenne de 3,3 % par rapport à la méthode CoT standard et jusqu'à 2,5 % par rapport à sa version non entraînée sur ViLBench, en sélectionnant les générations d'OpenAI o1. Nous publions les implémentations sur https://ucsc-vlaa.github.io/ViLBench avec notre code, modèle et données.
English
Process-supervised reward models serve as a fine-grained function that provides detailed step-wise feedback to model responses, facilitating effective selection of reasoning trajectories for complex tasks. Despite its advantages, evaluation on PRMs remains less explored, especially in the multimodal domain. To address this gap, this paper first benchmarks current vision large language models (VLLMs) as two types of reward models: output reward models (ORMs) and process reward models (PRMs) on multiple vision-language benchmarks, which reveal that neither ORM nor PRM consistently outperforms across all tasks, and superior VLLMs do not necessarily yield better rewarding performance. To further advance evaluation, we introduce ViLBench, a vision-language benchmark designed to require intensive process reward signals. Notably, OpenAI's GPT-4o with Chain-of-Thought (CoT) achieves only 27.3% accuracy, indicating the benchmark's challenge for current VLLMs. Lastly, we preliminarily showcase a promising pathway towards bridging the gap between general VLLMs and reward models -- by collecting 73.6K vision-language process reward data using an enhanced tree-search algorithm, our 3B model is able to achieve an average improvement of 3.3% over standard CoT and up to 2.5% compared to its untrained counterpart on ViLBench by selecting OpenAI o1's generations. We release the implementations at https://ucsc-vlaa.github.io/ViLBench with our code, model, and data.

Summary

AI-Generated Summary

PDF72March 27, 2025