ViLBench: Un Conjunto de Herramientas para el Modelado de Recompensas en Procesos de Visión-Lenguaje
ViLBench: A Suite for Vision-Language Process Reward Modeling
March 26, 2025
Autores: Haoqin Tu, Weitao Feng, Hardy Chen, Hui Liu, Xianfeng Tang, Cihang Xie
cs.AI
Resumen
Los modelos de recompensa supervisados por procesos funcionan como una herramienta detallada que proporciona retroalimentación paso a paso sobre las respuestas del modelo, facilitando la selección efectiva de trayectorias de razonamiento para tareas complejas. A pesar de sus ventajas, la evaluación de los modelos de recompensa por procesos (PRMs) sigue siendo poco explorada, especialmente en el dominio multimodal. Para abordar esta brecha, este artículo primero evalúa los modelos de lenguaje de visión a gran escala (VLLMs) actuales como dos tipos de modelos de recompensa: modelos de recompensa de salida (ORMs) y modelos de recompensa por procesos (PRMs) en múltiples benchmarks de visión y lenguaje, lo que revela que ni los ORMs ni los PRMs superan consistentemente en todas las tareas, y que los VLLMs superiores no necesariamente ofrecen un mejor rendimiento en la asignación de recompensas. Para avanzar en la evaluación, introducimos ViLBench, un benchmark de visión y lenguaje diseñado para requerir señales intensivas de recompensa por procesos. Notablemente, GPT-4o de OpenAI con Cadena de Pensamiento (CoT) alcanza solo un 27.3% de precisión, lo que indica el desafío que este benchmark representa para los VLLMs actuales. Finalmente, mostramos preliminarmente una vía prometedora para cerrar la brecha entre los VLLMs generales y los modelos de recompensa: al recopilar 73.6K datos de recompensa por procesos de visión y lenguaje utilizando un algoritmo mejorado de búsqueda en árbol, nuestro modelo de 3B logra una mejora promedio del 3.3% sobre CoT estándar y hasta un 2.5% en comparación con su contraparte no entrenada en ViLBench, seleccionando las generaciones de OpenAI o1. Publicamos las implementaciones en https://ucsc-vlaa.github.io/ViLBench con nuestro código, modelo y datos.
English
Process-supervised reward models serve as a fine-grained function that
provides detailed step-wise feedback to model responses, facilitating effective
selection of reasoning trajectories for complex tasks. Despite its advantages,
evaluation on PRMs remains less explored, especially in the multimodal domain.
To address this gap, this paper first benchmarks current vision large language
models (VLLMs) as two types of reward models: output reward models (ORMs) and
process reward models (PRMs) on multiple vision-language benchmarks, which
reveal that neither ORM nor PRM consistently outperforms across all tasks, and
superior VLLMs do not necessarily yield better rewarding performance. To
further advance evaluation, we introduce ViLBench, a vision-language benchmark
designed to require intensive process reward signals. Notably, OpenAI's GPT-4o
with Chain-of-Thought (CoT) achieves only 27.3% accuracy, indicating the
benchmark's challenge for current VLLMs. Lastly, we preliminarily showcase a
promising pathway towards bridging the gap between general VLLMs and reward
models -- by collecting 73.6K vision-language process reward data using an
enhanced tree-search algorithm, our 3B model is able to achieve an average
improvement of 3.3% over standard CoT and up to 2.5% compared to its untrained
counterpart on ViLBench by selecting OpenAI o1's generations. We release the
implementations at https://ucsc-vlaa.github.io/ViLBench with our code, model,
and data.Summary
AI-Generated Summary