ChatPaper.aiChatPaper

VLM-R^3: Riconoscimento, Ragionamento e Raffinamento Regionale per una Catena di Pensiero Multimodale Potenziata

VLM-R^3: Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought

May 22, 2025
Autori: Chaoya Jiang, Yongrui Heng, Wei Ye, Han Yang, Haiyang Xu, Ming Yan, Ji Zhang, Fei Huang, Shikun Zhang
cs.AI

Abstract

Recentemente, i modelli multimodali di linguaggio (MLLM) basati sul ragionamento hanno ottenuto un certo successo nella generazione di catene di ragionamento testuale di lunga durata. Tuttavia, continuano a incontrare difficoltà con compiti complessi che richiedono un'attenzione dinamica e iterativa su regioni visive, necessaria per ottenere un ancoraggio preciso del ragionamento testuale nell'evidenza visiva. Introduciamo VLM-R^3 (Visual Language Model with Region Recognition and Reasoning), un framework che equipaggia un MLLM con la capacità di (i) decidere quando è necessaria ulteriore evidenza visiva, (ii) determinare dove ancorarsi all'interno dell'immagine, e (iii) integrare in modo fluido il contenuto delle sotto-immagini rilevanti in una catena di pensiero intervallata. Il cuore del nostro metodo è l'ottimizzazione della politica di rinforzo condizionata alle regioni (R-GRPO), un paradigma di addestramento che premia il modello per la selezione di regioni informative, la formulazione di trasformazioni appropriate (ad esempio, ritaglio, zoom) e l'integrazione del contesto visivo risultante nei passaggi successivi di ragionamento. Per avviare questa politica, abbiamo compilato un corpus modesto ma accuratamente curato di razionalità intervallata visuo-linguistica (VLIR) che fornisce una supervisione a livello di passaggio sulla selezione delle regioni e sulla giustificazione testuale. Esperimenti estensivi su MathVista, ScienceQA e altri benchmark dimostrano che VLM-R^3 stabilisce un nuovo stato dell'arte in contesti zero-shot e few-shot, con i maggiori miglioramenti osservati su domande che richiedono un ragionamento spaziale sottile o l'estrazione di indizi visivi di alta granularità.
English
Recently, reasoning-based MLLMs have achieved a degree of success in generating long-form textual reasoning chains. However, they still struggle with complex tasks that necessitate dynamic and iterative focusing on and revisiting of visual regions to achieve precise grounding of textual reasoning in visual evidence. We introduce VLM-R^3 (Visual Language Model with Region Recognition and Reasoning), a framework that equips an MLLM with the ability to (i) decide when additional visual evidence is needed, (ii) determine where to ground within the image, and (iii) seamlessly weave the relevant sub-image content back into an interleaved chain-of-thought. The core of our method is Region-Conditioned Reinforcement Policy Optimization (R-GRPO), a training paradigm that rewards the model for selecting informative regions, formulating appropriate transformations (e.g.\ crop, zoom), and integrating the resulting visual context into subsequent reasoning steps. To bootstrap this policy, we compile a modest but carefully curated Visuo-Lingual Interleaved Rationale (VLIR) corpus that provides step-level supervision on region selection and textual justification. Extensive experiments on MathVista, ScienceQA, and other benchmarks show that VLM-R^3 sets a new state of the art in zero-shot and few-shot settings, with the largest gains appearing on questions demanding subtle spatial reasoning or fine-grained visual cue extraction.
PDF123May 23, 2025