ChatPaper.aiChatPaper

Zelfbelonend Visueel-Taal Model via Redeneerdecompositie

Self-Rewarding Vision-Language Model via Reasoning Decomposition

August 27, 2025
Auteurs: Zongxia Li, Wenhao Yu, Chengsong Huang, Rui Liu, Zhenwen Liang, Fuxiao Liu, Jingxi Che, Dian Yu, Jordan Boyd-Graber, Haitao Mi, Dong Yu
cs.AI

Samenvatting

Vision-Language Models (VLMs) hebben vaak last van visuele hallucinaties, waarbij ze dingen zeggen die niet daadwerkelijk in de afbeelding aanwezig zijn, en taalverkortingen, waarbij ze het visuele deel overslaan en alleen vertrouwen op tekstuele voorkennis. Deze problemen ontstaan omdat de meeste post-trainingsmethoden voor VLMs afhankelijk zijn van eenvoudige verificatie van antwoordovereenkomsten en alleen de einduitvoer begeleiden, waardoor het tussenliggende visuele redeneren zonder expliciete richtlijnen blijft. Als gevolg krijgen VLMs slechts spaarzame visuele signalen en leren ze vaak om taalgebaseerd redeneren te prioriteren boven visuele waarneming. Om dit te verhelpen, voegen sommige bestaande methoden visuele begeleiding toe met behulp van menselijke annotaties of gedistilleerde labels van externe grote modellen. Menselijke annotaties zijn echter arbeidsintensief en kostbaar, en omdat externe signalen zich niet kunnen aanpassen aan het evoluerende beleid, veroorzaken ze distributieverschuivingen die kunnen leiden tot beloningsmanipulatie. In dit artikel introduceren we Vision-SR1, een zelfbelonende methode die visueel redeneren verbetert zonder afhankelijk te zijn van externe visuele begeleiding via reinforcement learning. Vision-SR1 splitst het redeneren van VLMs op in twee fasen: visuele waarneming en taalredeneren. Het model wordt eerst aangemoedigd om zelfstandige visuele waarnemingen te produceren die voldoende zijn om de vraag te beantwoorden zonder terug te verwijzen naar de invoerafbeelding. Om deze zelfstandigheid te valideren, wordt hetzelfde VLM-model vervolgens opnieuw aangemoedigd om taalredeneren uit te voeren met alleen de gegenereerde waarneming als invoer om de beloning te berekenen. Deze zelfbeloning wordt gecombineerd met begeleiding op de einduitvoer, wat een gebalanceerd trainingssignaal oplevert dat zowel visuele waarneming als taalredeneren versterkt. Onze experimenten tonen aan dat Vision-SR1 visueel redeneren verbetert, visuele hallucinaties vermindert en de afhankelijkheid van taalverkortingen vermindert bij diverse vision-language taken.
English
Vision-Language Models (VLMs) often suffer from visual hallucinations, saying things that are not actually in the image, and language shortcuts, where they skip the visual part and just rely on text priors. These issues arise because most post-training methods for VLMs rely on simple verifiable answer matching and supervise only final outputs, leaving intermediate visual reasoning without explicit guidance. As a result, VLMs receive sparse visual signals and often learn to prioritize language-based reasoning over visual perception. To mitigate this, some existing methods add visual supervision using human annotations or distilled labels from external large models. However, human annotations are labor-intensive and costly, and because external signals cannot adapt to the evolving policy, they cause distributional shifts that can lead to reward hacking. In this paper, we introduce Vision-SR1, a self-rewarding method that improves visual reasoning without relying on external visual supervisions via reinforcement learning. Vision-SR1 decomposes VLM reasoning into two stages: visual perception and language reasoning. The model is first prompted to produce self-contained visual perceptions that are sufficient to answer the question without referring back the input image. To validate this self-containment, the same VLM model is then re-prompted to perform language reasoning using only the generated perception as input to compute reward. This self-reward is combined with supervision on final outputs, providing a balanced training signal that strengthens both visual perception and language reasoning. Our experiments demonstrate that Vision-SR1 improves visual reasoning, mitigates visual hallucinations, and reduces reliance on language shortcuts across diverse vision-language tasks.
PDF842August 28, 2025