ChatPaper.aiChatPaper

ViCrit: Un Compito Proxie Verificabile per l'Apprendimento per Rinforzo nella Percezione Visiva nei Modelli Linguistici Visivi

ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs

June 11, 2025
Autori: Xiyao Wang, Zhengyuan Yang, Chao Feng, Yongyuan Liang, Yuhang Zhou, Xiaoyu Liu, Ziyi Zang, Ming Li, Chung-Ching Lin, Kevin Lin, Linjie Li, Furong Huang, Lijuan Wang
cs.AI

Abstract

L'apprendimento per rinforzo (RL) ha dimostrato una grande efficacia nel fine-tuning di grandi modelli linguistici (LLMs) utilizzando compiti che sono impegnativi ma facilmente verificabili, come il ragionamento matematico o la generazione di codice. Tuttavia, estendere questo successo alla percezione visiva nei modelli visione-linguaggio (VLMs) è stato ostacolato dalla scarsità di compiti centrati sulla visione che siano contemporaneamente impegnativi e inequivocabilmente verificabili. A tal fine, introduciamo ViCrit (Visual Caption Hallucination Critic), un compito proxy RL che addestra i VLMs a localizzare una sottile allucinazione visiva sintetica iniettata in paragrafi di descrizioni di immagini scritte da esseri umani. Partendo da una descrizione di 200 parole, iniettiamo un singolo errore di descrizione visiva sottile—alterando poche parole su oggetti, attributi, quantità o relazioni spaziali—e assegniamo al modello il compito di individuare il segmento corrotto data l'immagine e la descrizione modificata. Questa formulazione preserva la piena difficoltà percettiva fornendo al contempo una ricompensa binaria, a corrispondenza esatta, che è facile da calcolare e inequivocabile. I modelli addestrati con il compito ViCrit mostrano miglioramenti sostanziali su una varietà di benchmark VL. Crucialmente, i miglioramenti si trasferiscono oltre i dati di addestramento su immagini naturali al ragionamento su immagini astratte e alla matematica visiva, mostrando promesse di apprendimento della percezione piuttosto che di semplice memorizzazione di oggetti visti. Per facilitare la valutazione, introduciamo ulteriormente ViCrit-Bench, un benchmark diagnostico bilanciato per categorie che esamina sistematicamente gli errori di percezione attraverso diversi domini di immagini e tipi di errore. Insieme, i nostri risultati dimostrano che la critica fine alle allucinazioni è un obiettivo efficace e generalizzabile per migliorare la percezione visiva nei VLMs.
English
Reinforcement learning (RL) has shown great effectiveness for fine-tuning large language models (LLMs) using tasks that are challenging yet easily verifiable, such as math reasoning or code generation. However, extending this success to visual perception in vision-language models (VLMs) has been impeded by the scarcity of vision-centric tasks that are simultaneously challenging and unambiguously verifiable. To this end, we introduce ViCrit (Visual Caption Hallucination Critic), an RL proxy task that trains VLMs to localize a subtle, synthetic visual hallucination injected into paragraphs of human-written image captions. Starting from a 200-word captions, we inject a single, subtle visual description error-altering a few words on objects, attributes, counts, or spatial relations-and task the model to pinpoint the corrupted span given the image and the modified caption. This formulation preserves the full perceptual difficulty while providing a binary, exact-match reward that is easy to compute and unambiguous. Models trained with the ViCrit Task exhibit substantial gains across a variety of VL benchmarks. Crucially, the improvements transfer beyond natural-image training data to abstract image reasoning and visual math, showing promises of learning to perceive rather than barely memorizing seen objects. To facilitate evaluation, we further introduce ViCrit-Bench, a category-balanced diagnostic benchmark that systematically probes perception errors across diverse image domains and error types. Together, our results demonstrate that fine-grained hallucination criticism is an effective and generalizable objective for enhancing visual perception in VLMs.
PDF222June 16, 2025