Jigsaw-R1: Un estudio sobre el aprendizaje por refuerzo visual basado en reglas con rompecabezas
Jigsaw-R1: A Study of Rule-based Visual Reinforcement Learning with Jigsaw Puzzles
May 29, 2025
Autores: Zifu Wang, Junyi Zhu, Bo Tang, Zhiyu Li, Feiyu Xiong, Jiaqian Yu, Matthew B. Blaschko
cs.AI
Resumen
La aplicación del aprendizaje por refuerzo basado en reglas (RL) a modelos de lenguaje multimodal de gran escala (MLLMs) introduce desafíos únicos y posibles desviaciones respecto a los hallazgos en dominios exclusivamente textuales, particularmente para tareas que requieren una fuerte percepción visual. Este artículo presenta un estudio exhaustivo del RL visual basado en reglas, utilizando rompecabezas como marco experimental estructurado. Los rompecabezas ofrecen una verdad fundamental inherente, dificultad ajustable y exigen una toma de decisiones compleja, lo que los hace ideales para este estudio. Nuestra investigación revela varios hallazgos clave: En primer lugar, encontramos que los MLLMs, que inicialmente tienen un rendimiento cercano al azar en los rompecabezas más simples, logran una precisión casi perfecta y generalizan a configuraciones complejas y no vistas mediante ajuste fino. En segundo lugar, el entrenamiento en rompecabezas puede inducir generalización a otras tareas visuales, con una efectividad vinculada a configuraciones específicas de tareas. En tercer lugar, los MLLMs pueden aprender y generalizar con o sin razonamiento explícito, aunque los modelos de código abierto suelen favorecer respuestas directas. En consecuencia, incluso cuando se entrenan para razonar paso a paso, pueden ignorar el proceso de pensamiento al derivar la respuesta final. En cuarto lugar, observamos que los patrones de razonamiento complejo parecen estar preexistentes en lugar de emergentes, con su frecuencia aumentando junto con el entrenamiento y la dificultad de la tarea. Finalmente, nuestros resultados demuestran que el RL exhibe una generalización más efectiva que el Ajuste Fino Supervisado (SFT), y que una fase inicial de arranque en frío con SFT puede obstaculizar la optimización posterior del RL. Aunque estas observaciones se basan en rompecabezas y pueden variar en otras tareas visuales, esta investigación contribuye con una pieza valiosa al rompecabezas más amplio de la comprensión colectiva del RL visual basado en reglas y su potencial en el aprendizaje multimodal. El código está disponible en: https://github.com/zifuwanggg/Jigsaw-R1.
English
The application of rule-based reinforcement learning (RL) to multimodal large
language models (MLLMs) introduces unique challenges and potential deviations
from findings in text-only domains, particularly for perception-heavy tasks.
This paper provides a comprehensive study of rule-based visual RL, using jigsaw
puzzles as a structured experimental framework. Jigsaw puzzles offer inherent
ground truth, adjustable difficulty, and demand complex decision-making, making
them ideal for this study. Our research reveals several key findings:
Firstly, we find that MLLMs, initially performing near to random
guessing on the simplest jigsaw puzzles, achieve near-perfect accuracy and
generalize to complex, unseen configurations through fine-tuning.
Secondly, training on jigsaw puzzles can induce generalization to
other visual tasks, with effectiveness tied to specific task configurations.
Thirdly, MLLMs can learn and generalize with or without explicit
reasoning, though open-source models often favor direct answering.
Consequently, even when trained for step-by-step reasoning, they can ignore the
thinking process in deriving the final answer. Fourthly, we observe
that complex reasoning patterns appear to be pre-existing rather than emergent,
with their frequency increasing alongside training and task difficulty.
Finally, our results demonstrate that RL exhibits more effective
generalization than Supervised Fine-Tuning (SFT), and an initial SFT cold start
phase can hinder subsequent RL optimization. Although these observations are
based on jigsaw puzzles and may vary across other visual tasks, this research
contributes a valuable piece of jigsaw to the larger puzzle of collective
understanding rule-based visual RL and its potential in multimodal learning.
The code is available at: https://github.com/zifuwanggg/Jigsaw-R1.