iVGR: Internalización del Razonamiento Visualmente Fundamentado para MLLMs mediante Aprendizaje por Refuerzo

Resumen

Aunque el Chain-of-Thought (CoT) fundamentado visualmente ha surgido como un paradigma prometedor para mejorar la percepción de granularidad fina en modelos de lenguaje grandes multimodales (MLLMs), su eficacia durante la fase de inferencia sigue siendo poco explorada. En este trabajo, encontramos empíricamente que exigir cajas de objetos explícitas en el CoT fundamentado visualmente durante la inferencia a menudo degrada el rendimiento en comparación con el CoT textual estándar, que razona sin fundamentación visual explícita. Hipotetizamos que la capacidad de localización visual puede internalizarse en el CoT textual y que la fundamentación explícita obligatoria introduce interferencias innecesarias con el objetivo principal del modelo de predicción de respuestas. Para abordar este problema, proponemos Internalizing Visually Grounded Reasoning (iVGR), un novedoso marco de aprendizaje por refuerzo que transfiere las capacidades de localización al proceso de razonamiento textual. Empleamos una estrategia de entrenamiento de doble flujo, donde un flujo textual se alinea con un flujo fundamentado visualmente de alta calidad mediante una recompensa de consistencia propuesta, lo que permite al modelo localizar con precisión sin fundamentación explícita durante la inferencia. Experimentos exhaustivos demuestran que nuestro método supera significativamente a las líneas base existentes en puntos de referencia de granularidad fina, manteniendo al mismo tiempo la flexibilidad para admitir flujos de trabajo de inferencia asistidos por herramientas.

English

While visually grounded Chain-of-Thought (CoT) has emerged as a promising paradigm to enhance fine-grained perception in multimodal large language models (MLLMs), its efficacy during the inference phase remains underexplored. In this work, we empirically find that mandating explicit object boxes in visually grounded CoT during inference often degrades performance compared to standard textual CoT, which reasons without explicit visual grounding. We hypothesize that the visual localization capability can be internalized into the textual CoT and that the mandatory explicit grounding introduces unnecessary interference with the model's primary objective of answer prediction. To address this problem, we propose Internalizing Visually Grounded Reasoning (iVGR), a novel reinforcement learning framework that transfers localization capabilities into the textual reasoning process. We employ a dual-stream training strategy, where a textual stream is aligned with a high-quality visually grounded stream via a proposed consistency reward, enabling the model to localize accurately without explicit grounding during inference. Extensive experiments demonstrate that our method significantly outperforms existing baselines on fine-grained benchmarks, while maintaining the flexibility to support tool-assisted inference workflows.