UME-R1: Исследование генеративных мультимодальных эмбеддингов, управляемых логическим выводом
UME-R1: Exploring Reasoning-Driven Generative Multimodal Embeddings
November 1, 2025
Авторы: Zhibin Lan, Liqiang Niu, Fandong Meng, Jie Zhou, Jinsong Su
cs.AI
Аннотация
Выдающийся успех мультимодальных больших языковых моделей (MLLM) стимулировал прогресс в области мультимодальных эмбеддингов, однако существующие модели остаются по своей сути дискриминативными, что ограничивает их способность использовать преимущества генеративной парадигмы, основанной на рассуждениях. В данной работе мы впервые исследуем генеративные эмбеддинги, объединяя задачи эмбеддингов в рамках генеративной парадигмы. Мы предлагаем UME-R1, универсальную мультимодальную框架 эмбеддингов, состоящую из двухэтапной стратегии обучения: контролируемая тонкая настройка "холодного старта" наделяет модель способностью к рассуждениям и позволяет ей генерировать как дискриминативные, так и генеративные эмбеддинги; последующее обучение с подкреплением улучшает рассуждения и дополнительно оптимизирует качество генеративных эмбеддингов. Эта пионерская работа выявляет четыре ключевых вывода: 1) генеративные эмбеддинги обеспечивают значительное повышение производительности по сравнению с традиционными дискриминативными эмбеддингами за счет использования мощных генеративных способностей к рассуждениям MLLM; 2) дискриминативные и генеративные эмбеддинги дополняют друг друга, а их объединенная "оракульная" производительность значительно превосходит производительность каждого по отдельности; 3) обучение с подкреплением может эффективно улучшать генеративные эмбеддинги, устанавливая масштабируемую парадигму оптимизации; 4) повторная выборка на этапе вывода повышает покрытие downstream-задач (pass@k), подчеркивая потенциал масштабируемости генеративных эмбеддингов во время вывода. Оценка на бенчмарке MMEB-V2, включающем 78 задач по видео, изображениям и визуальным документам, показывает, что UME-R1 значительно превосходит традиционные модели дискриминативных эмбеддингов и закладывает основу для более интерпретируемых, основанных на рассуждениях генеративных мультимодальных эмбеддингов. Наш код, модели и наборы данных будут общедоступны по адресу https://github.com/XMUDeepLIT/UME-R1.
English
The remarkable success of multimodal large language models (MLLMs) has driven
advances in multimodal embeddings, yet existing models remain inherently
discriminative, limiting their ability to benefit from reasoning-driven
generation paradigm. In this work, we pioneer the exploration of generative
embeddings, unifying embedding tasks within a generative paradigm. We propose
UME-R1, a universal multimodal embedding framework consisting of a two-stage
training strategy: a cold-start supervised fine-tuning equips the model with
reasoning capabilities and enables it to generate both discriminative and
generative embeddings; a subsequent reinforcement learning enhances reasoning
and further optimizes generative embedding quality. This pioneering work
reveals four key insights: 1) generative embeddings unlock substantial
performance gains over conventional discriminative embeddings by leveraging the
powerful generative reasoning capabilities of MLLMs; 2) discriminative and
generative embeddings are complementary, whose combined oracle performance far
exceeding that of either alone; 3) RL can effectively enhance generative
embeddings, establishing a scalable optimization paradigm.; 4) repeated
sampling at inference boosts downstream task coverage (pass@k), highlighting
the inference-time scalability potential of generative embeddings. Evaluated on
the MMEB-V2 benchmark across 78 tasks spanning video, image, and visual
documents, UME-R1 significantly outperforms conventional discriminative
embedding models and offers a foundation for more interpretable,
reasoning-driven generative multimodal embeddings. Our code, models, and
datasets will be publicly available at https://github.com/XMUDeepLIT/UME-R1.