ViCrit: Uma Tarefa Proxy Verificável de Aprendizado por Reforço para Percepção Visual em VLMs
ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs
June 11, 2025
Autores: Xiyao Wang, Zhengyuan Yang, Chao Feng, Yongyuan Liang, Yuhang Zhou, Xiaoyu Liu, Ziyi Zang, Ming Li, Chung-Ching Lin, Kevin Lin, Linjie Li, Furong Huang, Lijuan Wang
cs.AI
Resumo
O aprendizado por reforço (RL) tem demonstrado grande eficácia no ajuste fino de grandes modelos de linguagem (LLMs) utilizando tarefas que são desafiadoras, mas facilmente verificáveis, como raciocínio matemático ou geração de código. No entanto, estender esse sucesso para a percepção visual em modelos visão-linguagem (VLMs) tem sido dificultado pela escassez de tarefas centradas em visão que são simultaneamente desafiadoras e inequivocamente verificáveis. Para isso, introduzimos o ViCrit (Visual Caption Hallucination Critic), uma tarefa proxy de RL que treina VLMs para localizar uma sutil alucinação visual sintética injetada em parágrafos de legendas de imagens escritas por humanos. Partindo de uma legenda de 200 palavras, injetamos um único erro sutil de descrição visual—alterando algumas palavras em objetos, atributos, contagens ou relações espaciais—e solicitamos que o modelo identifique o trecho corrompido, dada a imagem e a legenda modificada. Essa formulação preserva a dificuldade perceptual completa enquanto fornece uma recompensa binária de correspondência exata que é fácil de calcular e inequívoca. Modelos treinados com a Tarefa ViCrit exibem ganhos substanciais em uma variedade de benchmarks de VL. Crucialmente, as melhorias se transferem além dos dados de treinamento de imagens naturais para o raciocínio com imagens abstratas e matemática visual, mostrando promessas de aprender a perceber em vez de apenas memorizar objetos vistos. Para facilitar a avaliação, introduzimos ainda o ViCrit-Bench, um benchmark diagnóstico balanceado por categorias que investiga sistematicamente erros de percepção em diversos domínios de imagem e tipos de erro. Juntos, nossos resultados demonstram que a crítica de alucinações em nível granular é um objetivo eficaz e generalizável para aprimorar a percepção visual em VLMs.
English
Reinforcement learning (RL) has shown great effectiveness for fine-tuning
large language models (LLMs) using tasks that are challenging yet easily
verifiable, such as math reasoning or code generation. However, extending this
success to visual perception in vision-language models (VLMs) has been impeded
by the scarcity of vision-centric tasks that are simultaneously challenging and
unambiguously verifiable. To this end, we introduce ViCrit (Visual Caption
Hallucination Critic), an RL proxy task that trains VLMs to localize a subtle,
synthetic visual hallucination injected into paragraphs of human-written image
captions. Starting from a 200-word captions, we inject a single, subtle visual
description error-altering a few words on objects, attributes, counts, or
spatial relations-and task the model to pinpoint the corrupted span given the
image and the modified caption. This formulation preserves the full perceptual
difficulty while providing a binary, exact-match reward that is easy to compute
and unambiguous. Models trained with the ViCrit Task exhibit substantial gains
across a variety of VL benchmarks. Crucially, the improvements transfer beyond
natural-image training data to abstract image reasoning and visual math,
showing promises of learning to perceive rather than barely memorizing seen
objects. To facilitate evaluation, we further introduce ViCrit-Bench, a
category-balanced diagnostic benchmark that systematically probes perception
errors across diverse image domains and error types. Together, our results
demonstrate that fine-grained hallucination criticism is an effective and
generalizable objective for enhancing visual perception in VLMs.