ChatPaper.aiChatPaper

Jigsaw-R1: Un estudio sobre el aprendizaje por refuerzo visual basado en reglas con rompecabezas

Jigsaw-R1: A Study of Rule-based Visual Reinforcement Learning with Jigsaw Puzzles

May 29, 2025
Autores: Zifu Wang, Junyi Zhu, Bo Tang, Zhiyu Li, Feiyu Xiong, Jiaqian Yu, Matthew B. Blaschko
cs.AI

Resumen

La aplicación del aprendizaje por refuerzo basado en reglas (RL) a modelos de lenguaje multimodal de gran escala (MLLMs) introduce desafíos únicos y posibles desviaciones respecto a los hallazgos en dominios exclusivamente textuales, particularmente para tareas que requieren una fuerte percepción visual. Este artículo presenta un estudio exhaustivo del RL visual basado en reglas, utilizando rompecabezas como marco experimental estructurado. Los rompecabezas ofrecen una verdad fundamental inherente, dificultad ajustable y exigen una toma de decisiones compleja, lo que los hace ideales para este estudio. Nuestra investigación revela varios hallazgos clave: En primer lugar, encontramos que los MLLMs, que inicialmente tienen un rendimiento cercano al azar en los rompecabezas más simples, logran una precisión casi perfecta y generalizan a configuraciones complejas y no vistas mediante ajuste fino. En segundo lugar, el entrenamiento en rompecabezas puede inducir generalización a otras tareas visuales, con una efectividad vinculada a configuraciones específicas de tareas. En tercer lugar, los MLLMs pueden aprender y generalizar con o sin razonamiento explícito, aunque los modelos de código abierto suelen favorecer respuestas directas. En consecuencia, incluso cuando se entrenan para razonar paso a paso, pueden ignorar el proceso de pensamiento al derivar la respuesta final. En cuarto lugar, observamos que los patrones de razonamiento complejo parecen estar preexistentes en lugar de emergentes, con su frecuencia aumentando junto con el entrenamiento y la dificultad de la tarea. Finalmente, nuestros resultados demuestran que el RL exhibe una generalización más efectiva que el Ajuste Fino Supervisado (SFT), y que una fase inicial de arranque en frío con SFT puede obstaculizar la optimización posterior del RL. Aunque estas observaciones se basan en rompecabezas y pueden variar en otras tareas visuales, esta investigación contribuye con una pieza valiosa al rompecabezas más amplio de la comprensión colectiva del RL visual basado en reglas y su potencial en el aprendizaje multimodal. El código está disponible en: https://github.com/zifuwanggg/Jigsaw-R1.
English
The application of rule-based reinforcement learning (RL) to multimodal large language models (MLLMs) introduces unique challenges and potential deviations from findings in text-only domains, particularly for perception-heavy tasks. This paper provides a comprehensive study of rule-based visual RL, using jigsaw puzzles as a structured experimental framework. Jigsaw puzzles offer inherent ground truth, adjustable difficulty, and demand complex decision-making, making them ideal for this study. Our research reveals several key findings: Firstly, we find that MLLMs, initially performing near to random guessing on the simplest jigsaw puzzles, achieve near-perfect accuracy and generalize to complex, unseen configurations through fine-tuning. Secondly, training on jigsaw puzzles can induce generalization to other visual tasks, with effectiveness tied to specific task configurations. Thirdly, MLLMs can learn and generalize with or without explicit reasoning, though open-source models often favor direct answering. Consequently, even when trained for step-by-step reasoning, they can ignore the thinking process in deriving the final answer. Fourthly, we observe that complex reasoning patterns appear to be pre-existing rather than emergent, with their frequency increasing alongside training and task difficulty. Finally, our results demonstrate that RL exhibits more effective generalization than Supervised Fine-Tuning (SFT), and an initial SFT cold start phase can hinder subsequent RL optimization. Although these observations are based on jigsaw puzzles and may vary across other visual tasks, this research contributes a valuable piece of jigsaw to the larger puzzle of collective understanding rule-based visual RL and its potential in multimodal learning. The code is available at: https://github.com/zifuwanggg/Jigsaw-R1.
PDF242June 3, 2025