ChatPaper.aiChatPaper

Jigsaw-R1: Een onderzoek naar regelgebaseerd visueel reinforcement learning met legpuzzels

Jigsaw-R1: A Study of Rule-based Visual Reinforcement Learning with Jigsaw Puzzles

May 29, 2025
Auteurs: Zifu Wang, Junyi Zhu, Bo Tang, Zhiyu Li, Feiyu Xiong, Jiaqian Yu, Matthew B. Blaschko
cs.AI

Samenvatting

De toepassing van regelgebaseerd reinforcement learning (RL) op multimodale grote taalmodellen (MLLMs) brengt unieke uitdagingen en mogelijke afwijkingen met zich mee ten opzichte van bevindingen in tekstuele domeinen, met name voor perceptie-intensieve taken. Dit artikel biedt een uitgebreide studie van regelgebaseerd visueel RL, waarbij legpuzzels worden gebruikt als een gestructureerd experimenteel kader. Legpuzzels bieden inherente grondwaarheid, aanpasbare moeilijkheidsgraad en vereisen complexe besluitvorming, wat ze ideaal maakt voor deze studie. Ons onderzoek onthult verschillende belangrijke bevindingen: Ten eerste constateren we dat MLLMs, die aanvankelijk bijna willekeurig gissen op de eenvoudigste legpuzzels, bijna perfecte nauwkeurigheid bereiken en generaliseren naar complexe, onbekende configuraties door middel van fine-tuning. Ten tweede kan training op legpuzzels generalisatie naar andere visuele taken induceren, waarbij de effectiviteit gebonden is aan specifieke taakconfiguraties. Ten derde kunnen MLLMs leren en generaliseren met of zonder expliciete redenering, hoewel open-source modellen vaak de voorkeur geven aan direct antwoorden. Hierdoor kunnen ze, zelfs wanneer ze getraind zijn voor stap-voor-stap redenering, het denkproces negeren bij het afleiden van het uiteindelijke antwoord. Ten vierde observeren we dat complexe redeneerpatronen eerder vooraf bestaan dan emergent zijn, waarbij hun frequentie toeneemt naarmate de training en taakmoeilijkheid toenemen. Tot slot tonen onze resultaten aan dat RL effectievere generalisatie vertoont dan Supervised Fine-Tuning (SFT), en dat een initiële SFT cold start-fase de daaropvolgende RL-optimalisatie kan belemmeren. Hoewel deze observaties gebaseerd zijn op legpuzzels en kunnen variëren bij andere visuele taken, draagt dit onderzoek een waardevol puzzelstukje bij aan het grotere geheel van het collectieve begrip van regelgebaseerd visueel RL en zijn potentieel in multimodaal leren. De code is beschikbaar op: https://github.com/zifuwanggg/Jigsaw-R1.
English
The application of rule-based reinforcement learning (RL) to multimodal large language models (MLLMs) introduces unique challenges and potential deviations from findings in text-only domains, particularly for perception-heavy tasks. This paper provides a comprehensive study of rule-based visual RL, using jigsaw puzzles as a structured experimental framework. Jigsaw puzzles offer inherent ground truth, adjustable difficulty, and demand complex decision-making, making them ideal for this study. Our research reveals several key findings: Firstly, we find that MLLMs, initially performing near to random guessing on the simplest jigsaw puzzles, achieve near-perfect accuracy and generalize to complex, unseen configurations through fine-tuning. Secondly, training on jigsaw puzzles can induce generalization to other visual tasks, with effectiveness tied to specific task configurations. Thirdly, MLLMs can learn and generalize with or without explicit reasoning, though open-source models often favor direct answering. Consequently, even when trained for step-by-step reasoning, they can ignore the thinking process in deriving the final answer. Fourthly, we observe that complex reasoning patterns appear to be pre-existing rather than emergent, with their frequency increasing alongside training and task difficulty. Finally, our results demonstrate that RL exhibits more effective generalization than Supervised Fine-Tuning (SFT), and an initial SFT cold start phase can hinder subsequent RL optimization. Although these observations are based on jigsaw puzzles and may vary across other visual tasks, this research contributes a valuable piece of jigsaw to the larger puzzle of collective understanding rule-based visual RL and its potential in multimodal learning. The code is available at: https://github.com/zifuwanggg/Jigsaw-R1.
PDF252June 3, 2025