PairUni: Парное обучение для унифицированных мультимодальных языковых моделей
PairUni: Pairwise Training for Unified Multimodal Language Models
October 29, 2025
Авторы: Jiani Zheng, Zhiyang Teng, Xiangtai Li, Anran Wang, Yu Tian, Kunpeng Qiu, Ye Tian, Haochen Wang, Zhuochen Wang
cs.AI
Аннотация
Унифицированные модели «зрение-язык» (UVLM) должны выполнять как задачи понимания, так и генерации в рамках единой архитектуры. Однако эти задачи опираются на гетерогенные данные и различные типы обучения с учителем, что затрудняет их балансировку в ходе обучения с подкреплением (RL). Мы предлагаем PairUni — унифицированную структуру, которая реорганизует данные в пары «понимание-генерация» (UG) и соответствующим образом выравнивает оптимизацию. Сначала мы используем GPT-3 для аугментации данных отдельных задач: генерируем подписи для семплов понимания и пары «вопрос-ответ» (QA) для семплов генерации, формируя выровненные пары из одного и того же экземпляра. Кроме того, для каждого семпла генерации мы находим семантически связанный пример понимания, чтобы сформировать *извлеченную пару*, связывающую различные, но связанные точки данных. Такая парная структура выявляет семантические соответствия между задачами и поддерживает согласованное обучение политики. Чтобы использовать эту структуру, мы представляем Pair-GPRO — парно-ориентированный вариант на основе Group Relative Policy Optimization. Он назначает оценку сходства для каждой пары, чтобы модулировать преимущество, усиливая обучение на хорошо согласованных примерах и снижая интерференцию задач. Мы создали качественный набор данных из 16 тыс. UG-пар под названием PairUG для тонкой настройки методом RL и оценили PairUni на мощной UVLM-модели Janus-Pro. Наш подход обеспечивает сбалансированное улучшение различных UVLM, превосходя сильные базовые методы RL для UVLM. Код: https://github.com/Haochen-Wang409/PairUni
English
Unified vision-language models (UVLMs) must perform both understanding and
generation within a single architecture, but these tasks rely on heterogeneous
data and supervision, making it difficult to balance them during reinforcement
learning (RL). We propose PairUni, a unified framework that reorganizes data
into understanding-generation (UG) pairs and aligns optimization accordingly.
We first use GPT-o3 to augment single-task data, generating captions for
understanding samples and question-answer (QA) pairs for generation samples,
forming aligned pairs from the same instance. Additionally, for each generation
sample, we retrieve a semantically related understanding example to form a
retrieved pair, linking different but related data points. These paired
structures expose cross-task semantic correspondences and support consistent
policy learning. To leverage this structure, we present Pair-GPRO, a pair-aware
variant based on Group Relative Policy Optimization. It assigns a similarity
score to each pair to modulate the advantage, strengthening learning from
well-aligned examples and reducing task interference. We curate a high-quality
dataset of 16K UG pairs named PairUG for RL fine-tuning and evaluate PairUni on
the powerful Janus-Pro UVLMs. Our approach achieves balanced improvements on
various UVLMs, outperforming strong UVLM RL baselines. Code:
https://github.com/Haochen-Wang409/PairUni{github.com/Haochen-Wang409/PairUni}