VGR : Raisonnement Visuel Ancré
VGR: Visual Grounded Reasoning
June 13, 2025
Auteurs: Jiacong Wang, Zijiang Kang, Haochen Wang, Haiyong Jiang, Jiawen Li, Bohong Wu, Ya Wang, Jiao Ran, Xiao Liang, Chao Feng, Jun Xiao
cs.AI
Résumé
Dans le domaine du raisonnement multimodal en chaîne de pensée (CoT), les approches existantes reposent principalement sur un raisonnement dans l'espace purement linguistique, ce qui souffre intrinsèquement d'un biais linguistique et se limite largement aux domaines des mathématiques ou des sciences. Cette focalisation étroite limite leur capacité à gérer des tâches complexes de raisonnement visuel qui exigent une compréhension approfondie des détails des images. Pour remédier à ces limitations, cet article présente VGR, un nouveau modèle de langage multimodal (MLLM) de raisonnement doté de capacités améliorées de perception visuelle fine. Contrairement aux MLLM traditionnels qui répondent aux questions ou raisonnent uniquement dans l'espace linguistique, notre VGR détecte d'abord les régions pertinentes susceptibles d'aider à résoudre les problèmes, puis fournit des réponses précises basées sur les régions d'images rejouées. Pour y parvenir, nous avons constitué un ensemble de données SFT à grande échelle appelé VGR-SFT, qui contient des données de raisonnement combinant l'ancrage visuel et la déduction linguistique. Le pipeline d'inférence de VGR permet au modèle de sélectionner des boîtes englobantes pour référence visuelle, et une étape de relecture est introduite pour intégrer les régions correspondantes dans le processus de raisonnement, améliorant ainsi la compréhension multimodale. Les expériences menées sur le modèle de base LLaVA-NeXT-7B montrent que VGR obtient des performances supérieures sur des benchmarks multimodaux nécessitant une compréhension détaillée des images. Par rapport au modèle de base, VGR utilise seulement 30 % du nombre de tokens d'image tout en affichant des scores de +4,1 sur MMStar, +7,1 sur AI2D et une amélioration de +12,9 sur ChartQA.
English
In the field of multimodal chain-of-thought (CoT) reasoning, existing
approaches predominantly rely on reasoning on pure language space, which
inherently suffers from language bias and is largely confined to math or
science domains. This narrow focus limits their ability to handle complex
visual reasoning tasks that demand comprehensive understanding of image
details. To address these limitations, this paper introduces VGR, a novel
reasoning multimodal large language model (MLLM) with enhanced fine-grained
visual perception capabilities. Unlike traditional MLLMs that answer the
question or reasoning solely on the language space, our VGR first detects
relevant regions that may help to solve problems, and then provides precise
answers based on replayed image regions. To achieve this, we conduct a
large-scale SFT dataset called VGR -SFT that contains reasoning data with mixed
vision grounding and language deduction. The inference pipeline of VGR allows
the model to choose bounding boxes for visual reference and a replay stage is
introduced to integrates the corresponding regions into the reasoning process,
enhancing multimodel comprehension. Experiments on the LLaVA-NeXT-7B baseline
show that VGR achieves superior performance on multi-modal benchmarks requiring
comprehensive image detail understanding. Compared to the baseline, VGR uses
only 30\% of the image token count while delivering scores of +4.1 on MMStar,
+7.1 on AI2D, and a +12.9 improvement on ChartQA.