ViCrit: Una tarea proxy verificable de aprendizaje por refuerzo para la percepción visual en modelos de lenguaje visual (VLMs)
ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs
June 11, 2025
Autores: Xiyao Wang, Zhengyuan Yang, Chao Feng, Yongyuan Liang, Yuhang Zhou, Xiaoyu Liu, Ziyi Zang, Ming Li, Chung-Ching Lin, Kevin Lin, Linjie Li, Furong Huang, Lijuan Wang
cs.AI
Resumen
El aprendizaje por refuerzo (RL, por sus siglas en inglés) ha demostrado una gran eficacia para ajustar finamente modelos de lenguaje de gran escala (LLMs) utilizando tareas que son desafiantes pero fácilmente verificables, como el razonamiento matemático o la generación de código. Sin embargo, extender este éxito a la percepción visual en modelos de visión y lenguaje (VLMs) se ha visto obstaculizado por la escasez de tareas centradas en la visión que sean simultáneamente desafiantes y inequívocamente verificables. Con este fin, presentamos ViCrit (Visual Caption Hallucination Critic), una tarea proxy de RL que entrena a los VLMs para localizar una sutil alucinación visual sintética inyectada en párrafos de descripciones de imágenes escritas por humanos. Partiendo de una descripción de 200 palabras, inyectamos un único error visual sutil que altera unas pocas palabras en objetos, atributos, cantidades o relaciones espaciales, y asignamos al modelo la tarea de identificar el fragmento corrupto dada la imagen y la descripción modificada. Esta formulación preserva la dificultad perceptual completa mientras proporciona una recompensa binaria de coincidencia exacta que es fácil de calcular y no ambigua. Los modelos entrenados con la tarea ViCrit muestran mejoras sustanciales en una variedad de benchmarks de VL. Crucialmente, las mejoras se transfieren más allá de los datos de entrenamiento de imágenes naturales al razonamiento con imágenes abstractas y a las matemáticas visuales, mostrando promesas de aprender a percibir en lugar de simplemente memorizar objetos vistos. Para facilitar la evaluación, presentamos además ViCrit-Bench, un benchmark diagnóstico equilibrado por categorías que examina sistemáticamente errores de percepción en diversos dominios de imágenes y tipos de errores. En conjunto, nuestros resultados demuestran que la crítica de alucinaciones de grano fino es un objetivo efectivo y generalizable para mejorar la percepción visual en los VLMs.
English
Reinforcement learning (RL) has shown great effectiveness for fine-tuning
large language models (LLMs) using tasks that are challenging yet easily
verifiable, such as math reasoning or code generation. However, extending this
success to visual perception in vision-language models (VLMs) has been impeded
by the scarcity of vision-centric tasks that are simultaneously challenging and
unambiguously verifiable. To this end, we introduce ViCrit (Visual Caption
Hallucination Critic), an RL proxy task that trains VLMs to localize a subtle,
synthetic visual hallucination injected into paragraphs of human-written image
captions. Starting from a 200-word captions, we inject a single, subtle visual
description error-altering a few words on objects, attributes, counts, or
spatial relations-and task the model to pinpoint the corrupted span given the
image and the modified caption. This formulation preserves the full perceptual
difficulty while providing a binary, exact-match reward that is easy to compute
and unambiguous. Models trained with the ViCrit Task exhibit substantial gains
across a variety of VL benchmarks. Crucially, the improvements transfer beyond
natural-image training data to abstract image reasoning and visual math,
showing promises of learning to perceive rather than barely memorizing seen
objects. To facilitate evaluation, we further introduce ViCrit-Bench, a
category-balanced diagnostic benchmark that systematically probes perception
errors across diverse image domains and error types. Together, our results
demonstrate that fine-grained hallucination criticism is an effective and
generalizable objective for enhancing visual perception in VLMs.