ChatPaper.aiChatPaper

O Pós-Treinamento Visual Jigsaw Melhora os MLLMs

Visual Jigsaw Post-Training Improves MLLMs

September 29, 2025
Autores: Penghao Wu, Yushan Zhang, Haiwen Diao, Bo Li, Lewei Lu, Ziwei Liu
cs.AI

Resumo

O pós-treinamento baseado em aprendizado por reforço surgiu recentemente como um paradigma poderoso para aprimorar as capacidades de alinhamento e raciocínio de modelos de linguagem multimodal de grande escala (MLLMs). Embora o pós-treinamento centrado em visão seja crucial para melhorar a compreensão intrínseca dos MLLMs sobre sinais visuais, os paradigmas atuais de pós-treinamento são predominantemente centrados em texto, onde entradas visuais densas são utilizadas apenas para extrair pistas esparsas para o raciocínio baseado em texto. Existem algumas abordagens nessa direção, no entanto, elas ainda dependem do texto como mediador intermediário ou introduzem designs generativos visuais adicionais. Neste trabalho, apresentamos o Visual Jigsaw, uma estrutura genérica de pós-treinamento auto-supervisionada projetada para fortalecer a compreensão visual em MLLMs. O Visual Jigsaw é formulado como uma tarefa geral de ordenação: as entradas visuais são particionadas, embaralhadas, e o modelo deve reconstruir a informação visual produzindo a permutação correta em linguagem natural. Isso se alinha naturalmente com o aprendizado por reforço a partir de recompensas verificáveis (RLVR), não requer componentes generativos visuais adicionais e deriva seu sinal de supervisão automaticamente sem qualquer anotação. Instanciamos o Visual Jigsaw em três modalidades visuais, incluindo imagens, vídeos e dados 3D. Experimentos extensivos demonstram melhorias substanciais na percepção de detalhes finos, raciocínio temporal e compreensão espacial 3D. Nossos resultados destacam o potencial de tarefas auto-supervisionadas centradas em visão no pós-treinamento de MLLMs e visam inspirar mais pesquisas sobre designs de pretexto centrados em visão. Página do Projeto: https://penghao-wu.github.io/visual_jigsaw/
English
Reinforcement learning based post-training has recently emerged as a powerful paradigm for enhancing the alignment and reasoning capabilities of multimodal large language models (MLLMs). While vision-centric post-training is crucial for enhancing MLLMs' intrinsic understanding of visual signals, current post-training paradigms are predominantly text-centric, where dense visual inputs are only leveraged to extract sparse cues for text-based reasoning. There exist a few approaches in this direction, however, they often still rely on text as an intermediate mediator or introduce additional visual generative designs. In this work, we introduce Visual Jigsaw, a generic self-supervised post-training framework designed to strengthen visual understanding in MLLMs. Visual Jigsaw is formulated as a general ordering task: visual inputs are partitioned, shuffled, and the model must reconstruct the visual information by producing the correct permutation in natural language. This naturally aligns with reinforcement learning from verifiable rewards (RLVR), requires no additional visual generative components, and derives its supervisory signal automatically without any annotations. We instantiate Visual Jigsaw across three visual modalities, including images, videos, and 3D data. Extensive experiments demonstrate substantial improvements in fine-grained perception, temporal reasoning, and 3D spatial understanding. Our findings highlight the potential of self-supervised vision-centric tasks in post-training MLLMs and aim to inspire further research on vision-centric pretext designs. Project Page: https://penghao-wu.github.io/visual_jigsaw/
PDF352September 30, 2025