ChatPaper.aiChatPaper

VGR: Razonamiento Visual Fundamentado

VGR: Visual Grounded Reasoning

June 13, 2025
Autores: Jiacong Wang, Zijiang Kang, Haochen Wang, Haiyong Jiang, Jiawen Li, Bohong Wu, Ya Wang, Jiao Ran, Xiao Liang, Chao Feng, Jun Xiao
cs.AI

Resumen

En el campo del razonamiento multimodal de cadena de pensamiento (CoT, por sus siglas en inglés), los enfoques existentes dependen predominantemente del razonamiento en el espacio puramente lingüístico, lo que inherentemente sufre de sesgos lingüísticos y se limita principalmente a dominios como las matemáticas o las ciencias. Este enfoque estrecho restringe su capacidad para manejar tareas complejas de razonamiento visual que exigen una comprensión integral de los detalles de las imágenes. Para abordar estas limitaciones, este artículo presenta VGR, un novedoso modelo de lenguaje multimodal (MLLM) de razonamiento con capacidades mejoradas de percepción visual de grano fino. A diferencia de los MLLM tradicionales que responden preguntas o razonan únicamente en el espacio lingüístico, nuestro VGR primero detecta regiones relevantes que pueden ayudar a resolver problemas y luego proporciona respuestas precisas basadas en las regiones de la imagen reproducidas. Para lograr esto, hemos creado un conjunto de datos de ajuste fino supervisado (SFT) a gran escala llamado VGR-SFT, que contiene datos de razonamiento con una combinación de anclaje visual y deducción lingüística. La canalización de inferencia de VGR permite al modelo seleccionar cuadros delimitadores para referencia visual y se introduce una etapa de reproducción que integra las regiones correspondientes en el proceso de razonamiento, mejorando la comprensión multimodal. Los experimentos realizados en la línea base LLaVA-NeXT-7B muestran que VGR logra un rendimiento superior en puntos de referencia multimodales que requieren una comprensión detallada de las imágenes. En comparación con la línea base, VGR utiliza solo el 30\% del recuento de tokens de imagen, mientras que obtiene puntuaciones de +4.1 en MMStar, +7.1 en AI2D y una mejora de +12.9 en ChartQA.
English
In the field of multimodal chain-of-thought (CoT) reasoning, existing approaches predominantly rely on reasoning on pure language space, which inherently suffers from language bias and is largely confined to math or science domains. This narrow focus limits their ability to handle complex visual reasoning tasks that demand comprehensive understanding of image details. To address these limitations, this paper introduces VGR, a novel reasoning multimodal large language model (MLLM) with enhanced fine-grained visual perception capabilities. Unlike traditional MLLMs that answer the question or reasoning solely on the language space, our VGR first detects relevant regions that may help to solve problems, and then provides precise answers based on replayed image regions. To achieve this, we conduct a large-scale SFT dataset called VGR -SFT that contains reasoning data with mixed vision grounding and language deduction. The inference pipeline of VGR allows the model to choose bounding boxes for visual reference and a replay stage is introduced to integrates the corresponding regions into the reasoning process, enhancing multimodel comprehension. Experiments on the LLaVA-NeXT-7B baseline show that VGR achieves superior performance on multi-modal benchmarks requiring comprehensive image detail understanding. Compared to the baseline, VGR uses only 30\% of the image token count while delivering scores of +4.1 on MMStar, +7.1 on AI2D, and a +12.9 improvement on ChartQA.
PDF172June 17, 2025