Jigsaw-R1: Um Estudo sobre Aprendizado por Reforço Visual Baseado em Regras com Quebra-Cabeças
Jigsaw-R1: A Study of Rule-based Visual Reinforcement Learning with Jigsaw Puzzles
May 29, 2025
Autores: Zifu Wang, Junyi Zhu, Bo Tang, Zhiyu Li, Feiyu Xiong, Jiaqian Yu, Matthew B. Blaschko
cs.AI
Resumo
A aplicação de aprendizado por reforço baseado em regras (RL) a modelos de linguagem multimodal de grande escala (MLLMs) introduz desafios únicos e possíveis desvios em relação aos achados em domínios exclusivamente textuais, especialmente para tarefas que demandam percepção intensa. Este artigo apresenta um estudo abrangente de RL visual baseado em regras, utilizando quebra-cabeças como um framework experimental estruturado. Quebra-cabeças oferecem verdades fundamentais inerentes, dificuldade ajustável e exigem tomadas de decisão complexas, tornando-os ideais para este estudo. Nossa pesquisa revela várias descobertas-chave: Primeiramente, observamos que MLLMs, inicialmente com desempenho próximo ao acaso nos quebra-cabeças mais simples, alcançam precisão quase perfeita e generalizam para configurações complexas e não vistas após ajuste fino. Em segundo lugar, o treinamento em quebra-cabeças pode induzir generalização para outras tarefas visuais, com eficácia ligada a configurações específicas de tarefas. Terceiro, MLLMs podem aprender e generalizar com ou sem raciocínio explícito, embora modelos de código aberto frequentemente prefiram respostas diretas. Consequentemente, mesmo quando treinados para raciocínio passo a passo, podem ignorar o processo de pensamento ao derivar a resposta final. Quarto, observamos que padrões complexos de raciocínio parecem ser pré-existentes em vez de emergentes, com sua frequência aumentando junto com o treinamento e a dificuldade da tarefa. Por fim, nossos resultados demonstram que RL exibe generalização mais eficaz do que o Ajuste Fino Supervisionado (SFT), e uma fase inicial de "cold start" com SFT pode prejudicar a otimização subsequente de RL. Embora essas observações sejam baseadas em quebra-cabeças e possam variar em outras tarefas visuais, esta pesquisa contribui com uma peça valiosa para o quebra-cabeça maior do entendimento coletivo sobre RL visual baseado em regras e seu potencial no aprendizado multimodal. O código está disponível em: https://github.com/zifuwanggg/Jigsaw-R1.
English
The application of rule-based reinforcement learning (RL) to multimodal large
language models (MLLMs) introduces unique challenges and potential deviations
from findings in text-only domains, particularly for perception-heavy tasks.
This paper provides a comprehensive study of rule-based visual RL, using jigsaw
puzzles as a structured experimental framework. Jigsaw puzzles offer inherent
ground truth, adjustable difficulty, and demand complex decision-making, making
them ideal for this study. Our research reveals several key findings:
Firstly, we find that MLLMs, initially performing near to random
guessing on the simplest jigsaw puzzles, achieve near-perfect accuracy and
generalize to complex, unseen configurations through fine-tuning.
Secondly, training on jigsaw puzzles can induce generalization to
other visual tasks, with effectiveness tied to specific task configurations.
Thirdly, MLLMs can learn and generalize with or without explicit
reasoning, though open-source models often favor direct answering.
Consequently, even when trained for step-by-step reasoning, they can ignore the
thinking process in deriving the final answer. Fourthly, we observe
that complex reasoning patterns appear to be pre-existing rather than emergent,
with their frequency increasing alongside training and task difficulty.
Finally, our results demonstrate that RL exhibits more effective
generalization than Supervised Fine-Tuning (SFT), and an initial SFT cold start
phase can hinder subsequent RL optimization. Although these observations are
based on jigsaw puzzles and may vary across other visual tasks, this research
contributes a valuable piece of jigsaw to the larger puzzle of collective
understanding rule-based visual RL and its potential in multimodal learning.
The code is available at: https://github.com/zifuwanggg/Jigsaw-R1.