ViCrit: Проверяемая прокси-задача обучения с подкреплением для визуального восприятия в моделях визуального языка
ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs
June 11, 2025
Авторы: Xiyao Wang, Zhengyuan Yang, Chao Feng, Yongyuan Liang, Yuhang Zhou, Xiaoyu Liu, Ziyi Zang, Ming Li, Chung-Ching Lin, Kevin Lin, Linjie Li, Furong Huang, Lijuan Wang
cs.AI
Аннотация
Обучение с подкреплением (RL) продемонстрировало высокую эффективность для тонкой настройки больших языковых моделей (LLMs) с использованием задач, которые являются сложными, но легко проверяемыми, таких как математические рассуждения или генерация кода. Однако распространение этого успеха на визуальное восприятие в моделях, объединяющих зрение и язык (VLMs), было затруднено из-за недостатка задач, ориентированных на зрение, которые одновременно являются сложными и однозначно проверяемыми. В связи с этим мы представляем ViCrit (Visual Caption Hallucination Critic), задачу RL, которая обучает VLMs локализовать тонкую, синтетическую визуальную галлюцинацию, внедренную в абзацы написанных человеком описаний изображений. Начиная с описания из 200 слов, мы вносим одну, едва заметную ошибку в визуальное описание, изменяя несколько слов, связанных с объектами, атрибутами, количеством или пространственными отношениями, и ставим перед моделью задачу точно определить искаженный фрагмент, учитывая изображение и измененное описание. Такая формулировка сохраняет полную сложность восприятия, обеспечивая при этом бинарную, точную награду, которую легко вычислить и которая является однозначной. Модели, обученные с использованием задачи ViCrit, демонстрируют значительные улучшения в различных тестах для VL. Важно отметить, что улучшения переносятся за пределы данных для обучения на естественных изображениях на абстрактное изображение и визуальную математику, показывая потенциал обучения восприятию, а не просто запоминанию увиденных объектов. Для облегчения оценки мы также представляем ViCrit-Bench, сбалансированный по категориям диагностический тест, который систематически исследует ошибки восприятия в различных областях изображений и типах ошибок. Вместе наши результаты демонстрируют, что тонкая критика галлюцинаций является эффективной и обобщаемой целью для улучшения визуального восприятия в VLMs.
English
Reinforcement learning (RL) has shown great effectiveness for fine-tuning
large language models (LLMs) using tasks that are challenging yet easily
verifiable, such as math reasoning or code generation. However, extending this
success to visual perception in vision-language models (VLMs) has been impeded
by the scarcity of vision-centric tasks that are simultaneously challenging and
unambiguously verifiable. To this end, we introduce ViCrit (Visual Caption
Hallucination Critic), an RL proxy task that trains VLMs to localize a subtle,
synthetic visual hallucination injected into paragraphs of human-written image
captions. Starting from a 200-word captions, we inject a single, subtle visual
description error-altering a few words on objects, attributes, counts, or
spatial relations-and task the model to pinpoint the corrupted span given the
image and the modified caption. This formulation preserves the full perceptual
difficulty while providing a binary, exact-match reward that is easy to compute
and unambiguous. Models trained with the ViCrit Task exhibit substantial gains
across a variety of VL benchmarks. Crucially, the improvements transfer beyond
natural-image training data to abstract image reasoning and visual math,
showing promises of learning to perceive rather than barely memorizing seen
objects. To facilitate evaluation, we further introduce ViCrit-Bench, a
category-balanced diagnostic benchmark that systematically probes perception
errors across diverse image domains and error types. Together, our results
demonstrate that fine-grained hallucination criticism is an effective and
generalizable objective for enhancing visual perception in VLMs.