ViCrit: Un Compito Proxie Verificabile per l'Apprendimento per Rinforzo nella Percezione Visiva nei Modelli Linguistici Visivi
ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs
June 11, 2025
Autori: Xiyao Wang, Zhengyuan Yang, Chao Feng, Yongyuan Liang, Yuhang Zhou, Xiaoyu Liu, Ziyi Zang, Ming Li, Chung-Ching Lin, Kevin Lin, Linjie Li, Furong Huang, Lijuan Wang
cs.AI
Abstract
L'apprendimento per rinforzo (RL) ha dimostrato una grande efficacia nel fine-tuning di grandi modelli linguistici (LLMs) utilizzando compiti che sono impegnativi ma facilmente verificabili, come il ragionamento matematico o la generazione di codice. Tuttavia, estendere questo successo alla percezione visiva nei modelli visione-linguaggio (VLMs) è stato ostacolato dalla scarsità di compiti centrati sulla visione che siano contemporaneamente impegnativi e inequivocabilmente verificabili. A tal fine, introduciamo ViCrit (Visual Caption Hallucination Critic), un compito proxy RL che addestra i VLMs a localizzare una sottile allucinazione visiva sintetica iniettata in paragrafi di descrizioni di immagini scritte da esseri umani. Partendo da una descrizione di 200 parole, iniettiamo un singolo errore di descrizione visiva sottile—alterando poche parole su oggetti, attributi, quantità o relazioni spaziali—e assegniamo al modello il compito di individuare il segmento corrotto data l'immagine e la descrizione modificata. Questa formulazione preserva la piena difficoltà percettiva fornendo al contempo una ricompensa binaria, a corrispondenza esatta, che è facile da calcolare e inequivocabile. I modelli addestrati con il compito ViCrit mostrano miglioramenti sostanziali su una varietà di benchmark VL. Crucialmente, i miglioramenti si trasferiscono oltre i dati di addestramento su immagini naturali al ragionamento su immagini astratte e alla matematica visiva, mostrando promesse di apprendimento della percezione piuttosto che di semplice memorizzazione di oggetti visti. Per facilitare la valutazione, introduciamo ulteriormente ViCrit-Bench, un benchmark diagnostico bilanciato per categorie che esamina sistematicamente gli errori di percezione attraverso diversi domini di immagini e tipi di errore. Insieme, i nostri risultati dimostrano che la critica fine alle allucinazioni è un obiettivo efficace e generalizzabile per migliorare la percezione visiva nei VLMs.
English
Reinforcement learning (RL) has shown great effectiveness for fine-tuning
large language models (LLMs) using tasks that are challenging yet easily
verifiable, such as math reasoning or code generation. However, extending this
success to visual perception in vision-language models (VLMs) has been impeded
by the scarcity of vision-centric tasks that are simultaneously challenging and
unambiguously verifiable. To this end, we introduce ViCrit (Visual Caption
Hallucination Critic), an RL proxy task that trains VLMs to localize a subtle,
synthetic visual hallucination injected into paragraphs of human-written image
captions. Starting from a 200-word captions, we inject a single, subtle visual
description error-altering a few words on objects, attributes, counts, or
spatial relations-and task the model to pinpoint the corrupted span given the
image and the modified caption. This formulation preserves the full perceptual
difficulty while providing a binary, exact-match reward that is easy to compute
and unambiguous. Models trained with the ViCrit Task exhibit substantial gains
across a variety of VL benchmarks. Crucially, the improvements transfer beyond
natural-image training data to abstract image reasoning and visual math,
showing promises of learning to perceive rather than barely memorizing seen
objects. To facilitate evaluation, we further introduce ViCrit-Bench, a
category-balanced diagnostic benchmark that systematically probes perception
errors across diverse image domains and error types. Together, our results
demonstrate that fine-grained hallucination criticism is an effective and
generalizable objective for enhancing visual perception in VLMs.