Jigsaw-R1: ジグソーパズルを用いたルールベース視覚強化学習の研究
Jigsaw-R1: A Study of Rule-based Visual Reinforcement Learning with Jigsaw Puzzles
May 29, 2025
著者: Zifu Wang, Junyi Zhu, Bo Tang, Zhiyu Li, Feiyu Xiong, Jiaqian Yu, Matthew B. Blaschko
cs.AI
要旨
ルールベース強化学習(RL)をマルチモーダル大規模言語モデル(MLLMs)に適用することは、特に知覚が重要なタスクにおいて、テキストのみの領域での知見とは異なる独自の課題と可能性をもたらします。本論文では、ジグソーパズルを構造化された実験フレームワークとして用いて、ルールベース視覚RLに関する包括的な研究を行います。ジグソーパズルは、内在的なグラウンドトゥルース、調整可能な難易度、複雑な意思決定を要求する特性を持ち、本研究に最適です。私たちの研究から以下の主要な知見が得られました:
第一に、MLLMsは、最も単純なジグソーパズルにおいて最初はほぼランダムな推測に近い性能を示しますが、ファインチューニングを通じてほぼ完璧な精度を達成し、複雑で未見の構成にも一般化できることがわかりました。
第二に、ジグソーパズルでのトレーニングは、他の視覚タスクへの一般化を誘発し、その効果は特定のタスク構成に依存することが明らかになりました。
第三に、MLLMsは明示的な推論の有無にかかわらず学習し一般化できますが、オープンソースモデルは直接的な回答を好む傾向があります。その結果、段階的な推論のためにトレーニングされた場合でも、最終的な答えを導く過程での思考プロセスを無視することがあります。
第四に、複雑な推論パターンは、新たに生じるというよりも事前に存在しているように見え、その頻度はトレーニングとタスクの難易度に伴って増加することが観察されました。
最後に、RLは教師ありファインチューニング(SFT)よりも効果的な一般化を示し、初期のSFTコールドスタートフェーズがその後のRL最適化を妨げる可能性があることが実証されました。これらの観察はジグソーパズルに基づいており、他の視覚タスクでは異なる可能性がありますが、本研究はルールベース視覚RLとそのマルチモーダル学習における可能性に関する集合的理解という大きなパズルに貴重な一片を提供します。
コードは以下で公開されています:https://github.com/zifuwanggg/Jigsaw-R1
English
The application of rule-based reinforcement learning (RL) to multimodal large
language models (MLLMs) introduces unique challenges and potential deviations
from findings in text-only domains, particularly for perception-heavy tasks.
This paper provides a comprehensive study of rule-based visual RL, using jigsaw
puzzles as a structured experimental framework. Jigsaw puzzles offer inherent
ground truth, adjustable difficulty, and demand complex decision-making, making
them ideal for this study. Our research reveals several key findings:
Firstly, we find that MLLMs, initially performing near to random
guessing on the simplest jigsaw puzzles, achieve near-perfect accuracy and
generalize to complex, unseen configurations through fine-tuning.
Secondly, training on jigsaw puzzles can induce generalization to
other visual tasks, with effectiveness tied to specific task configurations.
Thirdly, MLLMs can learn and generalize with or without explicit
reasoning, though open-source models often favor direct answering.
Consequently, even when trained for step-by-step reasoning, they can ignore the
thinking process in deriving the final answer. Fourthly, we observe
that complex reasoning patterns appear to be pre-existing rather than emergent,
with their frequency increasing alongside training and task difficulty.
Finally, our results demonstrate that RL exhibits more effective
generalization than Supervised Fine-Tuning (SFT), and an initial SFT cold start
phase can hinder subsequent RL optimization. Although these observations are
based on jigsaw puzzles and may vary across other visual tasks, this research
contributes a valuable piece of jigsaw to the larger puzzle of collective
understanding rule-based visual RL and its potential in multimodal learning.
The code is available at: https://github.com/zifuwanggg/Jigsaw-R1.