PairUni: Treinamento Pareado para Modelos de Linguagem Multimodal Unificados
PairUni: Pairwise Training for Unified Multimodal Language Models
October 29, 2025
Autores: Jiani Zheng, Zhiyang Teng, Xiangtai Li, Anran Wang, Yu Tian, Kunpeng Qiu, Ye Tian, Haochen Wang, Zhuochen Wang
cs.AI
Resumo
Os modelos unificados de visão e linguagem (UVLMs) devem executar tarefas de compreensão e geração dentro de uma única arquitetura, mas essas tarefas dependem de dados e supervisão heterogêneos, dificultando seu equilíbrio durante o aprendizado por reforço (RL). Propomos o PairUni, uma estrutura unificada que reorganiza os dados em pares de compreensão-geração (UG) e alinha a otimização de acordo. Primeiro, usamos o GPT-4 para aumentar os dados de tarefa única, gerando legendas para amostras de compreensão e pares de pergunta-resposta (QA) para amostras de geração, formando pares alinhados a partir da mesma instância. Adicionalmente, para cada amostra de geração, recuperamos um exemplo de compreensão semanticamente relacionado para formar um par recuperado, conectando pontos de dados diferentes mas relacionados. Essas estruturas pareadas expõem correspondências semânticas entre tarefas e suportam um aprendizado de política consistente. Para aproveitar essa estrutura, apresentamos o Pair-GPRO, uma variante consciente de pares baseada na Otimização de Política Relativa de Grupo. Ele atribui uma pontuação de similaridade a cada par para modular a vantagem, fortalecendo o aprendizado a partir de exemplos bem alinhados e reduzindo a interferência entre tarefas. Curadamos um conjunto de dados de alta qualidade com 16K pares UG, denominado PairUG, para ajuste fino por RL e avaliamos o PairUni nos poderosos UVLMs Janus-Pro. Nossa abordagem alcança melhorias equilibradas em vários UVLMs, superando as fortes linhas de base de RL para UVLM. Código: https://github.com/Haochen-Wang409/PairUni
English
Unified vision-language models (UVLMs) must perform both understanding and
generation within a single architecture, but these tasks rely on heterogeneous
data and supervision, making it difficult to balance them during reinforcement
learning (RL). We propose PairUni, a unified framework that reorganizes data
into understanding-generation (UG) pairs and aligns optimization accordingly.
We first use GPT-o3 to augment single-task data, generating captions for
understanding samples and question-answer (QA) pairs for generation samples,
forming aligned pairs from the same instance. Additionally, for each generation
sample, we retrieve a semantically related understanding example to form a
retrieved pair, linking different but related data points. These paired
structures expose cross-task semantic correspondences and support consistent
policy learning. To leverage this structure, we present Pair-GPRO, a pair-aware
variant based on Group Relative Policy Optimization. It assigns a similarity
score to each pair to modulate the advantage, strengthening learning from
well-aligned examples and reducing task interference. We curate a high-quality
dataset of 16K UG pairs named PairUG for RL fine-tuning and evaluate PairUni on
the powerful Janus-Pro UVLMs. Our approach achieves balanced improvements on
various UVLMs, outperforming strong UVLM RL baselines. Code:
https://github.com/Haochen-Wang409/PairUni{github.com/Haochen-Wang409/PairUni}