PairUni: Treinamento Pareado para Modelos de Linguagem Multimodal Unificados

Resumo

Os modelos unificados de visão e linguagem (UVLMs) devem executar tarefas de compreensão e geração dentro de uma única arquitetura, mas essas tarefas dependem de dados e supervisão heterogêneos, dificultando seu equilíbrio durante o aprendizado por reforço (RL). Propomos o PairUni, uma estrutura unificada que reorganiza os dados em pares de compreensão-geração (UG) e alinha a otimização de acordo. Primeiro, usamos o GPT-4 para aumentar os dados de tarefa única, gerando legendas para amostras de compreensão e pares de pergunta-resposta (QA) para amostras de geração, formando pares alinhados a partir da mesma instância. Adicionalmente, para cada amostra de geração, recuperamos um exemplo de compreensão semanticamente relacionado para formar um par recuperado, conectando pontos de dados diferentes mas relacionados. Essas estruturas pareadas expõem correspondências semânticas entre tarefas e suportam um aprendizado de política consistente. Para aproveitar essa estrutura, apresentamos o Pair-GPRO, uma variante consciente de pares baseada na Otimização de Política Relativa de Grupo. Ele atribui uma pontuação de similaridade a cada par para modular a vantagem, fortalecendo o aprendizado a partir de exemplos bem alinhados e reduzindo a interferência entre tarefas. Curadamos um conjunto de dados de alta qualidade com 16K pares UG, denominado PairUG, para ajuste fino por RL e avaliamos o PairUni nos poderosos UVLMs Janus-Pro. Nossa abordagem alcança melhorias equilibradas em vários UVLMs, superando as fortes linhas de base de RL para UVLM. Código: https://github.com/Haochen-Wang409/PairUni

English

Unified vision-language models (UVLMs) must perform both understanding and generation within a single architecture, but these tasks rely on heterogeneous data and supervision, making it difficult to balance them during reinforcement learning (RL). We propose PairUni, a unified framework that reorganizes data into understanding-generation (UG) pairs and aligns optimization accordingly. We first use GPT-o3 to augment single-task data, generating captions for understanding samples and question-answer (QA) pairs for generation samples, forming aligned pairs from the same instance. Additionally, for each generation sample, we retrieve a semantically related understanding example to form a retrieved pair, linking different but related data points. These paired structures expose cross-task semantic correspondences and support consistent policy learning. To leverage this structure, we present Pair-GPRO, a pair-aware variant based on Group Relative Policy Optimization. It assigns a similarity score to each pair to modulate the advantage, strengthening learning from well-aligned examples and reducing task interference. We curate a high-quality dataset of 16K UG pairs named PairUG for RL fine-tuning and evaluate PairUni on the powerful Janus-Pro UVLMs. Our approach achieves balanced improvements on various UVLMs, outperforming strong UVLM RL baselines. Code: https://github.com/Haochen-Wang409/PairUni{github.com/Haochen-Wang409/PairUni}

PairUni: Treinamento Pareado para Modelos de Linguagem Multimodal Unificados

PairUni: Pairwise Training for Unified Multimodal Language Models

Resumo

Support