ChatPaper.aiChatPaper

VGR: Raciocínio Visual Fundamentado

VGR: Visual Grounded Reasoning

June 13, 2025
Autores: Jiacong Wang, Zijiang Kang, Haochen Wang, Haiyong Jiang, Jiawen Li, Bohong Wu, Ya Wang, Jiao Ran, Xiao Liang, Chao Feng, Jun Xiao
cs.AI

Resumo

No campo do raciocínio multimodal em cadeia de pensamento (CoT), as abordagens existentes dependem predominantemente do raciocínio no espaço puramente linguístico, o que sofre inerentemente de viés linguístico e está amplamente confinado a domínios de matemática ou ciências. Esse foco restrito limita sua capacidade de lidar com tarefas complexas de raciocínio visual que exigem uma compreensão abrangente dos detalhes da imagem. Para abordar essas limitações, este artigo introduz o VGR, um novo modelo de linguagem multimodal (MLLM) de raciocínio com capacidades aprimoradas de percepção visual refinada. Diferente dos MLLMs tradicionais que respondem à pergunta ou raciocinam apenas no espaço linguístico, nosso VGR primeiro detecta regiões relevantes que podem ajudar a resolver os problemas e, em seguida, fornece respostas precisas com base nas regiões da imagem reproduzidas. Para alcançar isso, conduzimos um grande conjunto de dados SFT chamado VGR-SFT, que contém dados de raciocínio com ancoragem visual mista e dedução linguística. O pipeline de inferência do VGR permite que o modelo escolha caixas delimitadoras para referência visual, e uma etapa de reprodução é introduzida para integrar as regiões correspondentes ao processo de raciocínio, aprimorando a compreensão multimodal. Experimentos na linha de base LLaVA-NeXT-7B mostram que o VGR alcança desempenho superior em benchmarks multimodais que exigem compreensão abrangente dos detalhes da imagem. Em comparação com a linha de base, o VGR usa apenas 30% da contagem de tokens de imagem, enquanto obtém pontuações de +4,1 no MMStar, +7,1 no AI2D e uma melhoria de +12,9 no ChartQA.
English
In the field of multimodal chain-of-thought (CoT) reasoning, existing approaches predominantly rely on reasoning on pure language space, which inherently suffers from language bias and is largely confined to math or science domains. This narrow focus limits their ability to handle complex visual reasoning tasks that demand comprehensive understanding of image details. To address these limitations, this paper introduces VGR, a novel reasoning multimodal large language model (MLLM) with enhanced fine-grained visual perception capabilities. Unlike traditional MLLMs that answer the question or reasoning solely on the language space, our VGR first detects relevant regions that may help to solve problems, and then provides precise answers based on replayed image regions. To achieve this, we conduct a large-scale SFT dataset called VGR -SFT that contains reasoning data with mixed vision grounding and language deduction. The inference pipeline of VGR allows the model to choose bounding boxes for visual reference and a replay stage is introduced to integrates the corresponding regions into the reasoning process, enhancing multimodel comprehension. Experiments on the LLaVA-NeXT-7B baseline show that VGR achieves superior performance on multi-modal benchmarks requiring comprehensive image detail understanding. Compared to the baseline, VGR uses only 30\% of the image token count while delivering scores of +4.1 on MMStar, +7.1 on AI2D, and a +12.9 improvement on ChartQA.
PDF202June 17, 2025