ChatPaper.aiChatPaper

Selbstbelohnendes Vision-Sprache-Modell durch Zerlegung von Schlussfolgerungen

Self-Rewarding Vision-Language Model via Reasoning Decomposition

August 27, 2025
papers.authors: Zongxia Li, Wenhao Yu, Chengsong Huang, Rui Liu, Zhenwen Liang, Fuxiao Liu, Jingxi Che, Dian Yu, Jordan Boyd-Graber, Haitao Mi, Dong Yu
cs.AI

papers.abstract

Vision-Language Models (VLMs) leiden häufig unter visuellen Halluzinationen, bei denen sie Dinge behaupten, die tatsächlich nicht im Bild vorhanden sind, sowie unter Sprachabkürzungen, bei denen sie den visuellen Teil überspringen und sich stattdessen auf Text-Priors verlassen. Diese Probleme entstehen, weil die meisten Post-Training-Methoden für VLMs auf einfache überprüfbare Antwortabgleiche setzen und nur die endgültigen Ausgaben überwachen, wodurch das Zwischenstadium der visuellen Argumentation ohne explizite Anleitung bleibt. Infolgedessen erhalten VLMs nur spärliche visuelle Signale und lernen oft, sprachbasierte Argumentation gegenüber der visuellen Wahrnehmung zu priorisieren. Um dies zu mildern, fügen einige bestehende Methoden visuelle Überwachung durch menschliche Annotationen oder destillierte Labels von externen großen Modellen hinzu. Menschliche Annotationen sind jedoch arbeitsintensiv und kostspielig, und da sich externe Signale nicht an die sich entwickelnde Politik anpassen können, verursachen sie Verteilungsverschiebungen, die zu Reward Hacking führen können. In diesem Artikel stellen wir Vision-SR1 vor, eine selbstbelohnende Methode, die die visuelle Argumentation verbessert, ohne auf externe visuelle Überwachung durch Reinforcement Learning angewiesen zu sein. Vision-SR1 zerlegt die VLM-Argumentation in zwei Phasen: visuelle Wahrnehmung und sprachliche Argumentation. Das Modell wird zunächst dazu aufgefordert, eigenständige visuelle Wahrnehmungen zu erzeugen, die ausreichen, um die Frage zu beantworten, ohne auf das Eingabebild zurückzugreifen. Um diese Eigenständigkeit zu validieren, wird dasselbe VLM-Modell dann erneut aufgefordert, sprachliche Argumentation durchzuführen, wobei nur die generierte Wahrnehmung als Eingabe verwendet wird, um die Belohnung zu berechnen. Diese Selbstbelohnung wird mit der Überwachung der endgültigen Ausgaben kombiniert, wodurch ein ausgewogenes Trainingssignal entsteht, das sowohl die visuelle Wahrnehmung als auch die sprachliche Argumentation stärkt. Unsere Experimente zeigen, dass Vision-SR1 die visuelle Argumentation verbessert, visuelle Halluzinationen mildert und die Abhängigkeit von Sprachabkürzungen in verschiedenen Vision-Language-Aufgaben reduziert.
English
Vision-Language Models (VLMs) often suffer from visual hallucinations, saying things that are not actually in the image, and language shortcuts, where they skip the visual part and just rely on text priors. These issues arise because most post-training methods for VLMs rely on simple verifiable answer matching and supervise only final outputs, leaving intermediate visual reasoning without explicit guidance. As a result, VLMs receive sparse visual signals and often learn to prioritize language-based reasoning over visual perception. To mitigate this, some existing methods add visual supervision using human annotations or distilled labels from external large models. However, human annotations are labor-intensive and costly, and because external signals cannot adapt to the evolving policy, they cause distributional shifts that can lead to reward hacking. In this paper, we introduce Vision-SR1, a self-rewarding method that improves visual reasoning without relying on external visual supervisions via reinforcement learning. Vision-SR1 decomposes VLM reasoning into two stages: visual perception and language reasoning. The model is first prompted to produce self-contained visual perceptions that are sufficient to answer the question without referring back the input image. To validate this self-containment, the same VLM model is then re-prompted to perform language reasoning using only the generated perception as input to compute reward. This self-reward is combined with supervision on final outputs, providing a balanced training signal that strengthens both visual perception and language reasoning. Our experiments demonstrate that Vision-SR1 improves visual reasoning, mitigates visual hallucinations, and reduces reliance on language shortcuts across diverse vision-language tasks.
PDF762August 28, 2025