ChatPaper.aiChatPaper

L'entraînement postérieur par casse-tête visuel améliore les MLLMs

Visual Jigsaw Post-Training Improves MLLMs

September 29, 2025
papers.authors: Penghao Wu, Yushan Zhang, Haiwen Diao, Bo Li, Lewei Lu, Ziwei Liu
cs.AI

papers.abstract

L'apprentissage par renforcement appliqué au post-entraînement a récemment émergé comme un paradigme puissant pour améliorer les capacités d'alignement et de raisonnement des modèles de langage multimodaux de grande taille (MLLMs). Bien qu'un post-entraînement centré sur la vision soit crucial pour renforcer la compréhension intrinsèque des signaux visuels par les MLLMs, les paradigmes actuels de post-entraînement sont principalement centrés sur le texte, où les entrées visuelles denses ne sont utilisées que pour extraire des indices épars pour le raisonnement basé sur le texte. Il existe quelques approches dans cette direction, mais elles reposent souvent encore sur le texte comme médiateur intermédiaire ou introduisent des conceptions génératives visuelles supplémentaires. Dans ce travail, nous présentons Visual Jigsaw, un cadre générique de post-entraînement auto-supervisé conçu pour renforcer la compréhension visuelle dans les MLLMs. Visual Jigsaw est formulé comme une tâche générale de réorganisation : les entrées visuelles sont partitionnées, mélangées, et le modèle doit reconstruire l'information visuelle en produisant la permutation correcte en langage naturel. Cela s'aligne naturellement avec l'apprentissage par renforcement à partir de récompenses vérifiables (RLVR), ne nécessite aucun composant génératif visuel supplémentaire, et dérive son signal de supervision automatiquement sans aucune annotation. Nous instancions Visual Jigsaw à travers trois modalités visuelles, incluant les images, les vidéos et les données 3D. Des expériences approfondies démontrent des améliorations substantielles dans la perception fine, le raisonnement temporel et la compréhension spatiale 3D. Nos résultats mettent en lumière le potentiel des tâches auto-supervisées centrées sur la vision dans le post-entraînement des MLLMs et visent à inspirer des recherches supplémentaires sur les conceptions de prétextes centrés sur la vision. Page du projet : https://penghao-wu.github.io/visual_jigsaw/
English
Reinforcement learning based post-training has recently emerged as a powerful paradigm for enhancing the alignment and reasoning capabilities of multimodal large language models (MLLMs). While vision-centric post-training is crucial for enhancing MLLMs' intrinsic understanding of visual signals, current post-training paradigms are predominantly text-centric, where dense visual inputs are only leveraged to extract sparse cues for text-based reasoning. There exist a few approaches in this direction, however, they often still rely on text as an intermediate mediator or introduce additional visual generative designs. In this work, we introduce Visual Jigsaw, a generic self-supervised post-training framework designed to strengthen visual understanding in MLLMs. Visual Jigsaw is formulated as a general ordering task: visual inputs are partitioned, shuffled, and the model must reconstruct the visual information by producing the correct permutation in natural language. This naturally aligns with reinforcement learning from verifiable rewards (RLVR), requires no additional visual generative components, and derives its supervisory signal automatically without any annotations. We instantiate Visual Jigsaw across three visual modalities, including images, videos, and 3D data. Extensive experiments demonstrate substantial improvements in fine-grained perception, temporal reasoning, and 3D spatial understanding. Our findings highlight the potential of self-supervised vision-centric tasks in post-training MLLMs and aim to inspire further research on vision-centric pretext designs. Project Page: https://penghao-wu.github.io/visual_jigsaw/
PDF332September 30, 2025