ViCrit: Uma Tarefa Proxy Verificável de Aprendizado por Reforço para Percepção Visual em VLMs

Resumo

O aprendizado por reforço (RL) tem demonstrado grande eficácia no ajuste fino de grandes modelos de linguagem (LLMs) utilizando tarefas que são desafiadoras, mas facilmente verificáveis, como raciocínio matemático ou geração de código. No entanto, estender esse sucesso para a percepção visual em modelos visão-linguagem (VLMs) tem sido dificultado pela escassez de tarefas centradas em visão que são simultaneamente desafiadoras e inequivocamente verificáveis. Para isso, introduzimos o ViCrit (Visual Caption Hallucination Critic), uma tarefa proxy de RL que treina VLMs para localizar uma sutil alucinação visual sintética injetada em parágrafos de legendas de imagens escritas por humanos. Partindo de uma legenda de 200 palavras, injetamos um único erro sutil de descrição visual—alterando algumas palavras em objetos, atributos, contagens ou relações espaciais—e solicitamos que o modelo identifique o trecho corrompido, dada a imagem e a legenda modificada. Essa formulação preserva a dificuldade perceptual completa enquanto fornece uma recompensa binária de correspondência exata que é fácil de calcular e inequívoca. Modelos treinados com a Tarefa ViCrit exibem ganhos substanciais em uma variedade de benchmarks de VL. Crucialmente, as melhorias se transferem além dos dados de treinamento de imagens naturais para o raciocínio com imagens abstratas e matemática visual, mostrando promessas de aprender a perceber em vez de apenas memorizar objetos vistos. Para facilitar a avaliação, introduzimos ainda o ViCrit-Bench, um benchmark diagnóstico balanceado por categorias que investiga sistematicamente erros de percepção em diversos domínios de imagem e tipos de erro. Juntos, nossos resultados demonstram que a crítica de alucinações em nível granular é um objetivo eficaz e generalizável para aprimorar a percepção visual em VLMs.

English

Reinforcement learning (RL) has shown great effectiveness for fine-tuning large language models (LLMs) using tasks that are challenging yet easily verifiable, such as math reasoning or code generation. However, extending this success to visual perception in vision-language models (VLMs) has been impeded by the scarcity of vision-centric tasks that are simultaneously challenging and unambiguously verifiable. To this end, we introduce ViCrit (Visual Caption Hallucination Critic), an RL proxy task that trains VLMs to localize a subtle, synthetic visual hallucination injected into paragraphs of human-written image captions. Starting from a 200-word captions, we inject a single, subtle visual description error-altering a few words on objects, attributes, counts, or spatial relations-and task the model to pinpoint the corrupted span given the image and the modified caption. This formulation preserves the full perceptual difficulty while providing a binary, exact-match reward that is easy to compute and unambiguous. Models trained with the ViCrit Task exhibit substantial gains across a variety of VL benchmarks. Crucially, the improvements transfer beyond natural-image training data to abstract image reasoning and visual math, showing promises of learning to perceive rather than barely memorizing seen objects. To facilitate evaluation, we further introduce ViCrit-Bench, a category-balanced diagnostic benchmark that systematically probes perception errors across diverse image domains and error types. Together, our results demonstrate that fine-grained hallucination criticism is an effective and generalizable objective for enhancing visual perception in VLMs.

ViCrit: Uma Tarefa Proxy Verificável de Aprendizado por Reforço para Percepção Visual em VLMs

ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs

Resumo

Support