ChatPaper.aiChatPaper

ViCrit: Una tarea proxy verificable de aprendizaje por refuerzo para la percepción visual en modelos de lenguaje visual (VLMs)

ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs

June 11, 2025
Autores: Xiyao Wang, Zhengyuan Yang, Chao Feng, Yongyuan Liang, Yuhang Zhou, Xiaoyu Liu, Ziyi Zang, Ming Li, Chung-Ching Lin, Kevin Lin, Linjie Li, Furong Huang, Lijuan Wang
cs.AI

Resumen

El aprendizaje por refuerzo (RL, por sus siglas en inglés) ha demostrado una gran eficacia para ajustar finamente modelos de lenguaje de gran escala (LLMs) utilizando tareas que son desafiantes pero fácilmente verificables, como el razonamiento matemático o la generación de código. Sin embargo, extender este éxito a la percepción visual en modelos de visión y lenguaje (VLMs) se ha visto obstaculizado por la escasez de tareas centradas en la visión que sean simultáneamente desafiantes y inequívocamente verificables. Con este fin, presentamos ViCrit (Visual Caption Hallucination Critic), una tarea proxy de RL que entrena a los VLMs para localizar una sutil alucinación visual sintética inyectada en párrafos de descripciones de imágenes escritas por humanos. Partiendo de una descripción de 200 palabras, inyectamos un único error visual sutil que altera unas pocas palabras en objetos, atributos, cantidades o relaciones espaciales, y asignamos al modelo la tarea de identificar el fragmento corrupto dada la imagen y la descripción modificada. Esta formulación preserva la dificultad perceptual completa mientras proporciona una recompensa binaria de coincidencia exacta que es fácil de calcular y no ambigua. Los modelos entrenados con la tarea ViCrit muestran mejoras sustanciales en una variedad de benchmarks de VL. Crucialmente, las mejoras se transfieren más allá de los datos de entrenamiento de imágenes naturales al razonamiento con imágenes abstractas y a las matemáticas visuales, mostrando promesas de aprender a percibir en lugar de simplemente memorizar objetos vistos. Para facilitar la evaluación, presentamos además ViCrit-Bench, un benchmark diagnóstico equilibrado por categorías que examina sistemáticamente errores de percepción en diversos dominios de imágenes y tipos de errores. En conjunto, nuestros resultados demuestran que la crítica de alucinaciones de grano fino es un objetivo efectivo y generalizable para mejorar la percepción visual en los VLMs.
English
Reinforcement learning (RL) has shown great effectiveness for fine-tuning large language models (LLMs) using tasks that are challenging yet easily verifiable, such as math reasoning or code generation. However, extending this success to visual perception in vision-language models (VLMs) has been impeded by the scarcity of vision-centric tasks that are simultaneously challenging and unambiguously verifiable. To this end, we introduce ViCrit (Visual Caption Hallucination Critic), an RL proxy task that trains VLMs to localize a subtle, synthetic visual hallucination injected into paragraphs of human-written image captions. Starting from a 200-word captions, we inject a single, subtle visual description error-altering a few words on objects, attributes, counts, or spatial relations-and task the model to pinpoint the corrupted span given the image and the modified caption. This formulation preserves the full perceptual difficulty while providing a binary, exact-match reward that is easy to compute and unambiguous. Models trained with the ViCrit Task exhibit substantial gains across a variety of VL benchmarks. Crucially, the improvements transfer beyond natural-image training data to abstract image reasoning and visual math, showing promises of learning to perceive rather than barely memorizing seen objects. To facilitate evaluation, we further introduce ViCrit-Bench, a category-balanced diagnostic benchmark that systematically probes perception errors across diverse image domains and error types. Together, our results demonstrate that fine-grained hallucination criticism is an effective and generalizable objective for enhancing visual perception in VLMs.
PDF192June 16, 2025