ChatPaper.aiChatPaper

ViCrit: Проверяемая прокси-задача обучения с подкреплением для визуального восприятия в моделях визуального языка

ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs

June 11, 2025
Авторы: Xiyao Wang, Zhengyuan Yang, Chao Feng, Yongyuan Liang, Yuhang Zhou, Xiaoyu Liu, Ziyi Zang, Ming Li, Chung-Ching Lin, Kevin Lin, Linjie Li, Furong Huang, Lijuan Wang
cs.AI

Аннотация

Обучение с подкреплением (RL) продемонстрировало высокую эффективность для тонкой настройки больших языковых моделей (LLMs) с использованием задач, которые являются сложными, но легко проверяемыми, таких как математические рассуждения или генерация кода. Однако распространение этого успеха на визуальное восприятие в моделях, объединяющих зрение и язык (VLMs), было затруднено из-за недостатка задач, ориентированных на зрение, которые одновременно являются сложными и однозначно проверяемыми. В связи с этим мы представляем ViCrit (Visual Caption Hallucination Critic), задачу RL, которая обучает VLMs локализовать тонкую, синтетическую визуальную галлюцинацию, внедренную в абзацы написанных человеком описаний изображений. Начиная с описания из 200 слов, мы вносим одну, едва заметную ошибку в визуальное описание, изменяя несколько слов, связанных с объектами, атрибутами, количеством или пространственными отношениями, и ставим перед моделью задачу точно определить искаженный фрагмент, учитывая изображение и измененное описание. Такая формулировка сохраняет полную сложность восприятия, обеспечивая при этом бинарную, точную награду, которую легко вычислить и которая является однозначной. Модели, обученные с использованием задачи ViCrit, демонстрируют значительные улучшения в различных тестах для VL. Важно отметить, что улучшения переносятся за пределы данных для обучения на естественных изображениях на абстрактное изображение и визуальную математику, показывая потенциал обучения восприятию, а не просто запоминанию увиденных объектов. Для облегчения оценки мы также представляем ViCrit-Bench, сбалансированный по категориям диагностический тест, который систематически исследует ошибки восприятия в различных областях изображений и типах ошибок. Вместе наши результаты демонстрируют, что тонкая критика галлюцинаций является эффективной и обобщаемой целью для улучшения визуального восприятия в VLMs.
English
Reinforcement learning (RL) has shown great effectiveness for fine-tuning large language models (LLMs) using tasks that are challenging yet easily verifiable, such as math reasoning or code generation. However, extending this success to visual perception in vision-language models (VLMs) has been impeded by the scarcity of vision-centric tasks that are simultaneously challenging and unambiguously verifiable. To this end, we introduce ViCrit (Visual Caption Hallucination Critic), an RL proxy task that trains VLMs to localize a subtle, synthetic visual hallucination injected into paragraphs of human-written image captions. Starting from a 200-word captions, we inject a single, subtle visual description error-altering a few words on objects, attributes, counts, or spatial relations-and task the model to pinpoint the corrupted span given the image and the modified caption. This formulation preserves the full perceptual difficulty while providing a binary, exact-match reward that is easy to compute and unambiguous. Models trained with the ViCrit Task exhibit substantial gains across a variety of VL benchmarks. Crucially, the improvements transfer beyond natural-image training data to abstract image reasoning and visual math, showing promises of learning to perceive rather than barely memorizing seen objects. To facilitate evaluation, we further introduce ViCrit-Bench, a category-balanced diagnostic benchmark that systematically probes perception errors across diverse image domains and error types. Together, our results demonstrate that fine-grained hallucination criticism is an effective and generalizable objective for enhancing visual perception in VLMs.
PDF222June 16, 2025