ChatPaper.aiChatPaper

ViCrit: Eine verifizierbare Proxy-Aufgabe für bestärkendes Lernen zur visuellen Wahrnehmung in VLMs

ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs

June 11, 2025
Autoren: Xiyao Wang, Zhengyuan Yang, Chao Feng, Yongyuan Liang, Yuhang Zhou, Xiaoyu Liu, Ziyi Zang, Ming Li, Chung-Ching Lin, Kevin Lin, Linjie Li, Furong Huang, Lijuan Wang
cs.AI

Zusammenfassung

Reinforcement Learning (RL) hat sich als äußerst effektiv erwiesen, um große Sprachmodelle (LLMs) anhand von Aufgaben zu optimieren, die herausfordernd, aber leicht überprüfbar sind, wie beispielsweise mathematisches Denken oder Code-Generierung. Die Übertragung dieses Erfolgs auf die visuelle Wahrnehmung in Vision-Sprach-Modellen (VLMs) wurde jedoch durch den Mangel an visuell zentrierten Aufgaben behindert, die gleichzeitig anspruchsvoll und eindeutig überprüfbar sind. Zu diesem Zweck führen wir ViCrit (Visual Caption Hallucination Critic) ein, eine RL-Proxy-Aufgabe, die VLMs trainiert, eine subtile, synthetische visuelle Halluzination zu lokalisieren, die in Absätze von menschengeschriebenen Bildbeschreibungen eingefügt wird. Ausgehend von einer 200-Wörter-Beschreibung fügen wir einen einzigen, subtilen visuellen Beschreibungsfehler ein – der einige Wörter zu Objekten, Attributen, Mengen oder räumlichen Beziehungen verändert – und beauftragen das Modell, die fehlerhafte Textspanne anhand des Bildes und der modifizierten Beschreibung zu identifizieren. Diese Formulierung bewahrt die volle Wahrnehmungsschwierigkeit, bietet jedoch eine binäre, exakte Belohnung, die einfach zu berechnen und eindeutig ist. Modelle, die mit der ViCrit-Aufgabe trainiert werden, zeigen erhebliche Verbesserungen über eine Vielzahl von VL-Benchmarks hinweg. Entscheidend ist, dass die Verbesserungen über natürliche Bildtrainingsdaten hinaus auf abstrakte Bildlogik und visuelle Mathematik übertragbar sind, was das Potenzial zeigt, wahrzunehmen anstatt lediglich gesehene Objekte auswendig zu lernen. Um die Evaluierung zu erleichtern, führen wir außerdem ViCrit-Bench ein, einen kategorieausgewogenen Diagnose-Benchmark, der Wahrnehmungsfehler systematisch über verschiedene Bilddomänen und Fehlertypen hinweg untersucht. Zusammen zeigen unsere Ergebnisse, dass feinkörnige Halluzinationskritik ein effektives und verallgemeinerbares Ziel zur Verbesserung der visuellen Wahrnehmung in VLMs darstellt.
English
Reinforcement learning (RL) has shown great effectiveness for fine-tuning large language models (LLMs) using tasks that are challenging yet easily verifiable, such as math reasoning or code generation. However, extending this success to visual perception in vision-language models (VLMs) has been impeded by the scarcity of vision-centric tasks that are simultaneously challenging and unambiguously verifiable. To this end, we introduce ViCrit (Visual Caption Hallucination Critic), an RL proxy task that trains VLMs to localize a subtle, synthetic visual hallucination injected into paragraphs of human-written image captions. Starting from a 200-word captions, we inject a single, subtle visual description error-altering a few words on objects, attributes, counts, or spatial relations-and task the model to pinpoint the corrupted span given the image and the modified caption. This formulation preserves the full perceptual difficulty while providing a binary, exact-match reward that is easy to compute and unambiguous. Models trained with the ViCrit Task exhibit substantial gains across a variety of VL benchmarks. Crucially, the improvements transfer beyond natural-image training data to abstract image reasoning and visual math, showing promises of learning to perceive rather than barely memorizing seen objects. To facilitate evaluation, we further introduce ViCrit-Bench, a category-balanced diagnostic benchmark that systematically probes perception errors across diverse image domains and error types. Together, our results demonstrate that fine-grained hallucination criticism is an effective and generalizable objective for enhancing visual perception in VLMs.
PDF192June 16, 2025