PairUni: Entrenamiento por Pares para Modelos de Lenguaje Multimodales Unificados
PairUni: Pairwise Training for Unified Multimodal Language Models
October 29, 2025
Autores: Jiani Zheng, Zhiyang Teng, Xiangtai Li, Anran Wang, Yu Tian, Kunpeng Qiu, Ye Tian, Haochen Wang, Zhuochen Wang
cs.AI
Resumen
Los modelos unificados de visión y lenguaje (UVLM) deben realizar tareas de comprensión y generación dentro de una única arquitectura, pero estas tareas dependen de datos y supervisión heterogéneos, lo que dificulta equilibrarlas durante el aprendizaje por refuerzo (RL). Proponemos PairUni, un marco unificado que reorganiza los datos en pares comprensión-generación (UG) y alinea la optimización en consecuencia. Primero utilizamos GPT-4 para aumentar los datos de tarea única, generando descripciones para muestras de comprensión y pares pregunta-respuesta (QA) para muestras de generación, formando pares alineados a partir de la misma instancia. Adicionalmente, para cada muestra de generación, recuperamos un ejemplo de comprensión semánticamente relacionado para formar un par recuperado, vinculando puntos de datos diferentes pero relacionados. Estas estructuras pareadas exponen correspondencias semánticas entre tareas y apoyan un aprendizaje de políticas consistente. Para aprovechar esta estructura, presentamos Pair-GPRO, una variante consciente de pares basada en la Optimización de Políticas Relativas por Grupos. Asigna una puntuación de similitud a cada par para modular la ventaja, fortaleciendo el aprendizaje de ejemplos bien alineados y reduciendo la interferencia entre tareas. Curramos un conjunto de datos de alta calidad de 16K pares UG llamado PairUG para el ajuste fino por RL y evaluamos PairUni en los potentes UVLM Janus-Pro. Nuestro enfoque logra mejoras equilibradas en varios UVLM, superando a sólidas líneas base de RL para UVLM. Código: https://github.com/Haochen-Wang409/PairUni
English
Unified vision-language models (UVLMs) must perform both understanding and
generation within a single architecture, but these tasks rely on heterogeneous
data and supervision, making it difficult to balance them during reinforcement
learning (RL). We propose PairUni, a unified framework that reorganizes data
into understanding-generation (UG) pairs and aligns optimization accordingly.
We first use GPT-o3 to augment single-task data, generating captions for
understanding samples and question-answer (QA) pairs for generation samples,
forming aligned pairs from the same instance. Additionally, for each generation
sample, we retrieve a semantically related understanding example to form a
retrieved pair, linking different but related data points. These paired
structures expose cross-task semantic correspondences and support consistent
policy learning. To leverage this structure, we present Pair-GPRO, a pair-aware
variant based on Group Relative Policy Optimization. It assigns a similarity
score to each pair to modulate the advantage, strengthening learning from
well-aligned examples and reducing task interference. We curate a high-quality
dataset of 16K UG pairs named PairUG for RL fine-tuning and evaluate PairUni on
the powerful Janus-Pro UVLMs. Our approach achieves balanced improvements on
various UVLMs, outperforming strong UVLM RL baselines. Code:
https://github.com/Haochen-Wang409/PairUni{github.com/Haochen-Wang409/PairUni}