Modèle Vision-Langage Auto-Récompensé via Décomposition Raisonnée
Self-Rewarding Vision-Language Model via Reasoning Decomposition
August 27, 2025
papers.authors: Zongxia Li, Wenhao Yu, Chengsong Huang, Rui Liu, Zhenwen Liang, Fuxiao Liu, Jingxi Che, Dian Yu, Jordan Boyd-Graber, Haitao Mi, Dong Yu
cs.AI
papers.abstract
Les modèles vision-langage (VLMs) souffrent souvent d'hallucinations visuelles, en affirmant des éléments qui ne sont pas réellement présents dans l'image, et de raccourcis linguistiques, où ils ignorent la partie visuelle pour se reposer uniquement sur des a priori textuels. Ces problèmes surviennent car la plupart des méthodes de post-entraînement pour les VLMs s'appuient sur un simple appariement de réponses vérifiables et supervisent uniquement les sorties finales, laissant le raisonnement visuel intermédiaire sans guidage explicite. En conséquence, les VLMs reçoivent des signaux visuels épars et apprennent souvent à privilégier le raisonnement basé sur le langage plutôt que la perception visuelle. Pour atténuer cela, certaines méthodes existantes ajoutent une supervision visuelle en utilisant des annotations humaines ou des labels distillés à partir de grands modèles externes. Cependant, les annotations humaines sont laborieuses et coûteuses, et comme les signaux externes ne peuvent pas s'adapter à la politique évolutive, ils provoquent des décalages de distribution qui peuvent conduire à du "reward hacking". Dans cet article, nous présentons Vision-SR1, une méthode auto-récompensante qui améliore le raisonnement visuel sans recourir à des supervisions visuelles externes via l'apprentissage par renforcement. Vision-SR1 décompose le raisonnement des VLMs en deux étapes : la perception visuelle et le raisonnement linguistique. Le modèle est d'abord incité à produire des perceptions visuelles autonomes suffisantes pour répondre à la question sans se référer à l'image d'entrée. Pour valider cette autonomie, le même modèle VLM est ensuite ré-invité à effectuer un raisonnement linguistique en utilisant uniquement la perception générée comme entrée pour calculer la récompense. Cette auto-récompense est combinée à la supervision des sorties finales, fournissant un signal d'entraînement équilibré qui renforce à la fois la perception visuelle et le raisonnement linguistique. Nos expériences démontrent que Vision-SR1 améliore le raisonnement visuel, atténue les hallucinations visuelles et réduit la dépendance aux raccourcis linguistiques dans diverses tâches vision-langage.
English
Vision-Language Models (VLMs) often suffer from visual hallucinations, saying
things that are not actually in the image, and language shortcuts, where they
skip the visual part and just rely on text priors. These issues arise because
most post-training methods for VLMs rely on simple verifiable answer matching
and supervise only final outputs, leaving intermediate visual reasoning without
explicit guidance. As a result, VLMs receive sparse visual signals and often
learn to prioritize language-based reasoning over visual perception. To
mitigate this, some existing methods add visual supervision using human
annotations or distilled labels from external large models. However, human
annotations are labor-intensive and costly, and because external signals cannot
adapt to the evolving policy, they cause distributional shifts that can lead to
reward hacking. In this paper, we introduce Vision-SR1, a self-rewarding method
that improves visual reasoning without relying on external visual supervisions
via reinforcement learning. Vision-SR1 decomposes VLM reasoning into two
stages: visual perception and language reasoning. The model is first prompted
to produce self-contained visual perceptions that are sufficient to answer the
question without referring back the input image. To validate this
self-containment, the same VLM model is then re-prompted to perform language
reasoning using only the generated perception as input to compute reward. This
self-reward is combined with supervision on final outputs, providing a balanced
training signal that strengthens both visual perception and language reasoning.
Our experiments demonstrate that Vision-SR1 improves visual reasoning,
mitigates visual hallucinations, and reduces reliance on language shortcuts
across diverse vision-language tasks.