Jigsaw-R1: Uno studio sull'apprendimento per rinforzo visivo basato su regole con puzzle a incastro
Jigsaw-R1: A Study of Rule-based Visual Reinforcement Learning with Jigsaw Puzzles
May 29, 2025
Autori: Zifu Wang, Junyi Zhu, Bo Tang, Zhiyu Li, Feiyu Xiong, Jiaqian Yu, Matthew B. Blaschko
cs.AI
Abstract
L'applicazione del reinforcement learning (RL) basato su regole ai modelli linguistici multimodali di grandi dimensioni (MLLMs) introduce sfide uniche e potenziali deviazioni rispetto ai risultati ottenuti nei domini esclusivamente testuali, in particolare per compiti che richiedono un forte coinvolgimento percettivo. Questo articolo fornisce uno studio completo del RL visivo basato su regole, utilizzando i puzzle come framework sperimentale strutturato. I puzzle offrono una verità intrinseca, difficoltà regolabile e richiedono un processo decisionale complesso, rendendoli ideali per questo studio. La nostra ricerca rivela diversi risultati chiave: in primo luogo, osserviamo che gli MLLMs, inizialmente con prestazioni vicine a un'ipotesi casuale sui puzzle più semplici, raggiungono un'accuratezza quasi perfetta e si generalizzano a configurazioni complesse e non viste attraverso il fine-tuning. In secondo luogo, l'addestramento sui puzzle può indurre una generalizzazione ad altri compiti visivi, con un'efficacia legata a specifiche configurazioni del compito. In terzo luogo, gli MLLMs possono apprendere e generalizzare con o senza ragionamento esplicito, sebbene i modelli open-source spesso preferiscano risposte dirette. Di conseguenza, anche quando addestrati per un ragionamento passo-passo, possono ignorare il processo di pensiero nel derivare la risposta finale. In quarto luogo, osserviamo che i modelli di ragionamento complesso sembrano essere preesistenti piuttosto che emergenti, con la loro frequenza che aumenta parallelamente all'addestramento e alla difficoltà del compito. Infine, i nostri risultati dimostrano che il RL mostra una generalizzazione più efficace rispetto al Fine-Tuning Supervisionato (SFT), e che una fase iniziale di cold start con SFT può ostacolare l'ottimizzazione successiva del RL. Sebbene queste osservazioni si basino sui puzzle e possano variare in altri compiti visivi, questa ricerca contribuisce con un prezioso tassello al puzzle più ampio della comprensione collettiva del RL visivo basato su regole e del suo potenziale nell'apprendimento multimodale. Il codice è disponibile all'indirizzo: https://github.com/zifuwanggg/Jigsaw-R1.
English
The application of rule-based reinforcement learning (RL) to multimodal large
language models (MLLMs) introduces unique challenges and potential deviations
from findings in text-only domains, particularly for perception-heavy tasks.
This paper provides a comprehensive study of rule-based visual RL, using jigsaw
puzzles as a structured experimental framework. Jigsaw puzzles offer inherent
ground truth, adjustable difficulty, and demand complex decision-making, making
them ideal for this study. Our research reveals several key findings:
Firstly, we find that MLLMs, initially performing near to random
guessing on the simplest jigsaw puzzles, achieve near-perfect accuracy and
generalize to complex, unseen configurations through fine-tuning.
Secondly, training on jigsaw puzzles can induce generalization to
other visual tasks, with effectiveness tied to specific task configurations.
Thirdly, MLLMs can learn and generalize with or without explicit
reasoning, though open-source models often favor direct answering.
Consequently, even when trained for step-by-step reasoning, they can ignore the
thinking process in deriving the final answer. Fourthly, we observe
that complex reasoning patterns appear to be pre-existing rather than emergent,
with their frequency increasing alongside training and task difficulty.
Finally, our results demonstrate that RL exhibits more effective
generalization than Supervised Fine-Tuning (SFT), and an initial SFT cold start
phase can hinder subsequent RL optimization. Although these observations are
based on jigsaw puzzles and may vary across other visual tasks, this research
contributes a valuable piece of jigsaw to the larger puzzle of collective
understanding rule-based visual RL and its potential in multimodal learning.
The code is available at: https://github.com/zifuwanggg/Jigsaw-R1.