ChatPaper.aiChatPaper

Modelo de Visão e Linguagem de Autorrecompensa via Decomposição de Raciocínio

Self-Rewarding Vision-Language Model via Reasoning Decomposition

August 27, 2025
Autores: Zongxia Li, Wenhao Yu, Chengsong Huang, Rui Liu, Zhenwen Liang, Fuxiao Liu, Jingxi Che, Dian Yu, Jordan Boyd-Graber, Haitao Mi, Dong Yu
cs.AI

Resumo

Modelos Visão-Linguagem (VLMs) frequentemente sofrem com alucinações visuais, dizendo coisas que não estão realmente na imagem, e atalhos linguísticos, onde eles ignoram a parte visual e dependem apenas de prioridades textuais. Esses problemas surgem porque a maioria dos métodos de pós-treinamento para VLMs se baseia em correspondência simples de respostas verificáveis e supervisiona apenas as saídas finais, deixando o raciocínio visual intermediário sem orientação explícita. Como resultado, os VLMs recebem sinais visuais esparsos e frequentemente aprendem a priorizar o raciocínio baseado em linguagem em vez da percepção visual. Para mitigar isso, alguns métodos existentes adicionam supervisão visual usando anotações humanas ou rótulos destilados de modelos externos grandes. No entanto, as anotações humanas são trabalhosas e custosas, e como os sinais externos não podem se adaptar à política em evolução, eles causam mudanças distribucionais que podem levar a manipulação de recompensas. Neste artigo, introduzimos o Vision-SR1, um método de auto-recompensa que melhora o raciocínio visual sem depender de supervisões visuais externas por meio de aprendizado por reforço. O Vision-SR1 decompõe o raciocínio do VLM em dois estágios: percepção visual e raciocínio linguístico. O modelo é primeiro solicitado a produzir percepções visuais autossuficientes que são suficientes para responder à questão sem se referir de volta à imagem de entrada. Para validar essa autossuficiência, o mesmo modelo VLM é então re-solicitado a realizar raciocínio linguístico usando apenas a percepção gerada como entrada para calcular a recompensa. Essa auto-recompensa é combinada com a supervisão nas saídas finais, fornecendo um sinal de treinamento equilibrado que fortalece tanto a percepção visual quanto o raciocínio linguístico. Nossos experimentos demonstram que o Vision-SR1 melhora o raciocínio visual, mitiga alucinações visuais e reduz a dependência de atalhos linguísticos em diversas tarefas visão-linguagem.
English
Vision-Language Models (VLMs) often suffer from visual hallucinations, saying things that are not actually in the image, and language shortcuts, where they skip the visual part and just rely on text priors. These issues arise because most post-training methods for VLMs rely on simple verifiable answer matching and supervise only final outputs, leaving intermediate visual reasoning without explicit guidance. As a result, VLMs receive sparse visual signals and often learn to prioritize language-based reasoning over visual perception. To mitigate this, some existing methods add visual supervision using human annotations or distilled labels from external large models. However, human annotations are labor-intensive and costly, and because external signals cannot adapt to the evolving policy, they cause distributional shifts that can lead to reward hacking. In this paper, we introduce Vision-SR1, a self-rewarding method that improves visual reasoning without relying on external visual supervisions via reinforcement learning. Vision-SR1 decomposes VLM reasoning into two stages: visual perception and language reasoning. The model is first prompted to produce self-contained visual perceptions that are sufficient to answer the question without referring back the input image. To validate this self-containment, the same VLM model is then re-prompted to perform language reasoning using only the generated perception as input to compute reward. This self-reward is combined with supervision on final outputs, providing a balanced training signal that strengthens both visual perception and language reasoning. Our experiments demonstrate that Vision-SR1 improves visual reasoning, mitigates visual hallucinations, and reduces reliance on language shortcuts across diverse vision-language tasks.
PDF832August 28, 2025