ChatPaper.aiChatPaper

Hochauflösendes visuelles Schließen durch Multi-Turn-Grounding-basiertes Reinforcement Learning

High-Resolution Visual Reasoning via Multi-Turn Grounding-Based Reinforcement Learning

July 8, 2025
papers.authors: Xinyu Huang, Yuhao Dong, Weiwei Tian, Bo Li, Rui Feng, Ziwei Liu
cs.AI

papers.abstract

State-of-the-Art Large Multi-Modal Models (LMMs) stehen vor Herausforderungen bei der Verarbeitung hochauflösender Bilder, da diese Eingaben in eine enorme Anzahl visueller Tokens umgewandelt werden, von denen viele für die nachgelagerte Aufgabe irrelevant sind. In diesem Artikel schlagen wir Multi-turn Grounding-based Policy Optimization (MGPO) vor, ein End-to-End-Reinforcement-Learning (RL)-Framework, das LMMs ermöglicht, sich iterativ auf Schlüsselregionen in Bildern zu konzentrieren, indem automatisch Teilbilder basierend auf vom Modell vorhergesagten Grounding-Koordinaten innerhalb eines Multi-Turn-Konversationsframeworks zugeschnitten werden. Im Vergleich zum Supervised Fine-Tuning (SFT), das kostspielige zusätzliche Grounding-Annotationen erfordert, zeigt unser Ansatz, dass LMMs robuste Grounding-Fähigkeiten während des RL-Trainingsprozesses entwickeln können, indem sie lediglich eine binäre Belohnungsfunktion nutzen, die sich aus der Korrektheit der endgültigen Antwort ableitet. Zusätzlich beobachten wir, dass LMMs Schwierigkeiten haben, visuelles Grounding während des Rollout-Prozesses autonom auszulösen. Um dieses Cold-Start-Problem zu lösen, entwerfen wir ein Multi-Turn-Konversationsschema und beschränken die Berechnung des Policy-Verlusts auf Modellausgaben, die über mehrere Dialogrunden generiert werden, wodurch eine stabile Optimierung gefördert wird. Umfangreiche Experimente zeigen, dass MGPO, wenn es auf Standarddaten für visuelle Fragen und kurze Antworten ohne Grounding-Annotationen trainiert wird, effektiv stärkere Grounding-Fähigkeiten im Vergleich zu GRPO hervorruft, was zu einer Verbesserung von 5,4 % auf der in-distribution MME-Realworld und 5,2 % auf der herausfordernden out-of-distribution (OOD) V* Bench führt. Bemerkenswerterweise übertrifft MGPO nach dem Training auf Qwen2.5-VL-7B mit 21K Stichproben die Modelle OpenAI o1 und GPT-4o auf der OOD V* Bench. Der Code ist verfügbar unter https://github.com/EvolvingLMMs-Lab/MGPO.
English
State-of-the-art large multi-modal models (LMMs) face challenges when processing high-resolution images, as these inputs are converted into enormous visual tokens, many of which are irrelevant to the downstream task. In this paper, we propose Multi-turn Grounding-based Policy Optimization (MGPO), an end-to-end reinforcement learning (RL) framework that enables LMMs to iteratively focus on key visual regions by automatically cropping sub-images, based on model-predicted grounding coordinates within a multi-turn conversation framework. Compared to supervised fine-tuning (SFT), which requires costly additional grounding annotations, our approach highlights that LMMs can emerge robust grounding abilities during the RL training process, leveraging only a binary reward function derived from the correctness of the final answer. Additionally, we observe that LMMs struggle to autonomously trigger visual grounding during the rollout process. To address this cold start problem, we design a multi-turn conversational template and restrict policy loss computation to model outputs generated across multiple dialogue rounds, thereby promoting stable optimization. Extensive experiments demonstrate that, when trained on standard visual-question-short answering data without grounding annotations, MGPO effectively elicits stronger grounding capabilities compared to GRPO, leading to 5.4\% improvement on in-distribution MME-Realworld and 5.2\% improvement on the challenging out-of-distribution (OOD) V* Bench. Notably, MGPO post-training on Qwen2.5-VL-7B with 21K samples surpasses OpenAI's o1 and GPT-4o models on the OOD V* Bench. Codes are available at https://github.com/EvolvingLMMs-Lab/MGPO.
PDF111July 9, 2025