Modelo de Visão e Linguagem de Autorrecompensa via Decomposição de Raciocínio
Self-Rewarding Vision-Language Model via Reasoning Decomposition
August 27, 2025
Autores: Zongxia Li, Wenhao Yu, Chengsong Huang, Rui Liu, Zhenwen Liang, Fuxiao Liu, Jingxi Che, Dian Yu, Jordan Boyd-Graber, Haitao Mi, Dong Yu
cs.AI
Resumo
Modelos Visão-Linguagem (VLMs) frequentemente sofrem com alucinações visuais, dizendo coisas que não estão realmente na imagem, e atalhos linguísticos, onde eles ignoram a parte visual e dependem apenas de prioridades textuais. Esses problemas surgem porque a maioria dos métodos de pós-treinamento para VLMs se baseia em correspondência simples de respostas verificáveis e supervisiona apenas as saídas finais, deixando o raciocínio visual intermediário sem orientação explícita. Como resultado, os VLMs recebem sinais visuais esparsos e frequentemente aprendem a priorizar o raciocínio baseado em linguagem em vez da percepção visual. Para mitigar isso, alguns métodos existentes adicionam supervisão visual usando anotações humanas ou rótulos destilados de modelos externos grandes. No entanto, as anotações humanas são trabalhosas e custosas, e como os sinais externos não podem se adaptar à política em evolução, eles causam mudanças distribucionais que podem levar a manipulação de recompensas. Neste artigo, introduzimos o Vision-SR1, um método de auto-recompensa que melhora o raciocínio visual sem depender de supervisões visuais externas por meio de aprendizado por reforço. O Vision-SR1 decompõe o raciocínio do VLM em dois estágios: percepção visual e raciocínio linguístico. O modelo é primeiro solicitado a produzir percepções visuais autossuficientes que são suficientes para responder à questão sem se referir de volta à imagem de entrada. Para validar essa autossuficiência, o mesmo modelo VLM é então re-solicitado a realizar raciocínio linguístico usando apenas a percepção gerada como entrada para calcular a recompensa. Essa auto-recompensa é combinada com a supervisão nas saídas finais, fornecendo um sinal de treinamento equilibrado que fortalece tanto a percepção visual quanto o raciocínio linguístico. Nossos experimentos demonstram que o Vision-SR1 melhora o raciocínio visual, mitiga alucinações visuais e reduz a dependência de atalhos linguísticos em diversas tarefas visão-linguagem.
English
Vision-Language Models (VLMs) often suffer from visual hallucinations, saying
things that are not actually in the image, and language shortcuts, where they
skip the visual part and just rely on text priors. These issues arise because
most post-training methods for VLMs rely on simple verifiable answer matching
and supervise only final outputs, leaving intermediate visual reasoning without
explicit guidance. As a result, VLMs receive sparse visual signals and often
learn to prioritize language-based reasoning over visual perception. To
mitigate this, some existing methods add visual supervision using human
annotations or distilled labels from external large models. However, human
annotations are labor-intensive and costly, and because external signals cannot
adapt to the evolving policy, they cause distributional shifts that can lead to
reward hacking. In this paper, we introduce Vision-SR1, a self-rewarding method
that improves visual reasoning without relying on external visual supervisions
via reinforcement learning. Vision-SR1 decomposes VLM reasoning into two
stages: visual perception and language reasoning. The model is first prompted
to produce self-contained visual perceptions that are sufficient to answer the
question without referring back the input image. To validate this
self-containment, the same VLM model is then re-prompted to perform language
reasoning using only the generated perception as input to compute reward. This
self-reward is combined with supervision on final outputs, providing a balanced
training signal that strengthens both visual perception and language reasoning.
Our experiments demonstrate that Vision-SR1 improves visual reasoning,
mitigates visual hallucinations, and reduces reliance on language shortcuts
across diverse vision-language tasks.