ChatPaper.aiChatPaper

Ein RL, um sie alle zu sehen: Visuelles Triple Unified Reinforcement Learning

One RL to See Them All: Visual Triple Unified Reinforcement Learning

May 23, 2025
Autoren: Yan Ma, Linge Du, Xuyang Shen, Shaoxiang Chen, Pengfei Li, Qibing Ren, Lizhuang Ma, Yuchao Dai, Pengfei Liu, Junjie Yan
cs.AI

Zusammenfassung

Reinforcement Learning (RL) hat die Fähigkeiten von Vision-Language-Modellen (VLMs) im Bereich des logischen Denkens erheblich vorangetrieben. Die Anwendung von RL über Denkaufgaben hinaus bleibt jedoch weitgehend unerforscht, insbesondere bei wahrnehmungsintensiven Aufgaben wie Objekterkennung und -verankerung. Wir stellen V-Triune vor, ein Visual Triple Unified Reinforcement Learning-System, das VLMs ermöglicht, visuelles Denken und Wahrnehmungsaufgaben gemeinsam in einer einzigen Trainingspipeline zu erlernen. V-Triune besteht aus drei komplementären Komponenten: Sample-Level Data Formatting (zur Vereinheitlichung verschiedener Aufgabeninputs), Verifier-Level Reward Computation (zur Bereitstellung maßgeschneiderter Belohnungen durch spezialisierte Verifizierer) und Source-Level Metric Monitoring (zur Diagnose von Problemen auf der Datenquellenebene). Darüber hinaus führen wir eine neuartige Dynamic IoU-Belohnung ein, die adaptives, progressives und eindeutiges Feedback für die von V-Triune bearbeiteten Wahrnehmungsaufgaben liefert. Unser Ansatz wird innerhalb eines Standard-RL-Trainingsframeworks mit Open-Source-7B- und 32B-Backbone-Modellen umgesetzt. Das resultierende Modell, genannt Orsta (One RL to See Them All), zeigt durchweg Verbesserungen sowohl bei Denk- als auch bei Wahrnehmungsaufgaben. Diese breite Fähigkeit wird maßgeblich durch das Training auf einem vielfältigen Datensatz geprägt, der um vier repräsentative visuelle Denkaufgaben (Mathe, Puzzle, Diagramme und Wissenschaft) und vier visuelle Wahrnehmungsaufgaben (Verankerung, Erkennung, Zählen und OCR) aufgebaut ist. In der Folge erzielt Orsta erhebliche Fortschritte auf dem MEGA-Bench Core, mit Verbesserungen, die von +2,1 bis zu beeindruckenden +14,1 über seine verschiedenen 7B- und 32B-Modellvarianten reichen, wobei die Leistungsvorteile auf eine Vielzahl von Downstream-Aufgaben ausgedehnt werden. Diese Ergebnisse unterstreichen die Effektivität und Skalierbarkeit unseres einheitlichen RL-Ansatzes für VLMs. Das V-Triune-System zusammen mit den Orsta-Modellen ist öffentlich unter https://github.com/MiniMax-AI verfügbar.
English
Reinforcement learning (RL) has significantly advanced the reasoning capabilities of vision-language models (VLMs). However, the use of RL beyond reasoning tasks remains largely unexplored, especially for perceptionintensive tasks like object detection and grounding. We propose V-Triune, a Visual Triple Unified Reinforcement Learning system that enables VLMs to jointly learn visual reasoning and perception tasks within a single training pipeline. V-Triune comprises triple complementary components: Sample-Level Data Formatting (to unify diverse task inputs), Verifier-Level Reward Computation (to deliver custom rewards via specialized verifiers) , and Source-Level Metric Monitoring (to diagnose problems at the data-source level). We further introduce a novel Dynamic IoU reward, which provides adaptive, progressive, and definite feedback for perception tasks handled by V-Triune. Our approach is instantiated within off-the-shelf RL training framework using open-source 7B and 32B backbone models. The resulting model, dubbed Orsta (One RL to See Them All), demonstrates consistent improvements across both reasoning and perception tasks. This broad capability is significantly shaped by its training on a diverse dataset, constructed around four representative visual reasoning tasks (Math, Puzzle, Chart, and Science) and four visual perception tasks (Grounding, Detection, Counting, and OCR). Subsequently, Orsta achieves substantial gains on MEGA-Bench Core, with improvements ranging from +2.1 to an impressive +14.1 across its various 7B and 32B model variants, with performance benefits extending to a wide range of downstream tasks. These results highlight the effectiveness and scalability of our unified RL approach for VLMs. The V-Triune system, along with the Orsta models, is publicly available at https://github.com/MiniMax-AI.

Summary

AI-Generated Summary

PDF552May 26, 2025