El Entrenamiento Posterior con Rompecabezas Visual Mejora los MLLMs
Visual Jigsaw Post-Training Improves MLLMs
September 29, 2025
Autores: Penghao Wu, Yushan Zhang, Haiwen Diao, Bo Li, Lewei Lu, Ziwei Liu
cs.AI
Resumen
El entrenamiento posterior basado en aprendizaje por refuerzo ha surgido recientemente como un paradigma poderoso para mejorar las capacidades de alineación y razonamiento de los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés). Si bien el entrenamiento posterior centrado en la visión es crucial para mejorar la comprensión intrínseca de las señales visuales en los MLLMs, los paradigmas actuales de entrenamiento posterior son predominantemente centrados en texto, donde las entradas visuales densas solo se utilizan para extraer indicios dispersos para el razonamiento basado en texto. Existen algunos enfoques en esta dirección; sin embargo, a menudo aún dependen del texto como mediador intermedio o introducen diseños generativos visuales adicionales. En este trabajo, presentamos Visual Jigsaw, un marco genérico de entrenamiento posterior autosupervisado diseñado para fortalecer la comprensión visual en los MLLMs. Visual Jigsaw se formula como una tarea general de ordenación: las entradas visuales se dividen, se mezclan y el modelo debe reconstruir la información visual produciendo la permutación correcta en lenguaje natural. Esto se alinea naturalmente con el aprendizaje por refuerzo a partir de recompensas verificables (RLVR, por sus siglas en inglés), no requiere componentes generativos visuales adicionales y deriva su señal de supervisión automáticamente sin necesidad de anotaciones. Instanciamos Visual Jigsaw en tres modalidades visuales, incluyendo imágenes, videos y datos 3D. Experimentos extensos demuestran mejoras sustanciales en la percepción de detalles finos, el razonamiento temporal y la comprensión espacial en 3D. Nuestros hallazgos resaltan el potencial de las tareas autosupervisadas centradas en la visión en el entrenamiento posterior de MLLMs y buscan inspirar más investigaciones sobre diseños de pretexto centrados en la visión. Página del proyecto: https://penghao-wu.github.io/visual_jigsaw/
English
Reinforcement learning based post-training has recently emerged as a powerful
paradigm for enhancing the alignment and reasoning capabilities of multimodal
large language models (MLLMs). While vision-centric post-training is crucial
for enhancing MLLMs' intrinsic understanding of visual signals, current
post-training paradigms are predominantly text-centric, where dense visual
inputs are only leveraged to extract sparse cues for text-based reasoning.
There exist a few approaches in this direction, however, they often still rely
on text as an intermediate mediator or introduce additional visual generative
designs. In this work, we introduce Visual Jigsaw, a generic self-supervised
post-training framework designed to strengthen visual understanding in MLLMs.
Visual Jigsaw is formulated as a general ordering task: visual inputs are
partitioned, shuffled, and the model must reconstruct the visual information by
producing the correct permutation in natural language. This naturally aligns
with reinforcement learning from verifiable rewards (RLVR), requires no
additional visual generative components, and derives its supervisory signal
automatically without any annotations. We instantiate Visual Jigsaw across
three visual modalities, including images, videos, and 3D data. Extensive
experiments demonstrate substantial improvements in fine-grained perception,
temporal reasoning, and 3D spatial understanding. Our findings highlight the
potential of self-supervised vision-centric tasks in post-training MLLMs and
aim to inspire further research on vision-centric pretext designs. Project
Page: https://penghao-wu.github.io/visual_jigsaw/