ChatPaper.aiChatPaper

Embed-RL: Обучение с подкреплением для построения мультимодальных эмбеддингов, управляемых логическим выводом

Embed-RL: Reinforcement Learning for Reasoning-Driven Multimodal Embeddings

February 14, 2026
Авторы: Haonan Jiang, Yuji Wang, Yongjie Zhu, Xin Lu, Wenyu Qin, Meng Wang, Pengfei Wan, Yansong Tang
cs.AI

Аннотация

Использование мультимодальных больших языковых моделей (MLLM) стало ключевым фактором для продвижения универсальных мультимодальных эмбеддингов (UME) в решении разнообразных кросс-модальных задач. Недавние исследования демонстрируют, что включение генеративного рассуждения по цепочке мыслей (CoT) может существенно улучшить представления, специфичные для задачи, по сравнению с дискриминативными методами. Однако сгенерированные CoT-рассуждения в существующих генеративных методах получения эмбеддингов ограничиваются текстовым анализом запросов и не связаны с поиском целевых объектов. Чтобы устранить эти ограничения, мы предлагаем ориентированную на рассуждения структуру UME, которая интегрирует обучение с подкреплением под руководством эмбеддера (EG-RL) для оптимизации модуля рассуждений с целью порождения доказательного отслеживаемого CoT (T-CoT). Наши ключевые вклады трехмерны: (1) Мы разрабатываем структуру EG-RL, в которой эмбеддер предоставляет явный контроль над модулем рассуждений, гарантируя соответствие генерируемых CoT-трасс задачам эмбеддинга. (2) Мы вводим T-CoT, который извлекает ключевые мультимодальные сигналы для фокусировки на элементах, релевантных поиску, и предоставляет мультимодальные входные данные для эмбеддера. (3) При ограниченных вычислительных ресурсах наша структура превосходит pioneering-модель эмбеддингов на бенчмарках MMEB-V2 и UVRB. Интеграция мультимодальных свидетельств в структурированные рассуждения в сочетании с ориентированным на поиск выравниванием эффективно усиливает кросс-модальную семантическую согласованность, повышает способность модели к тонкому сопоставлению, а также ее обобщающую способность в сложных сценариях. Наша работа демонстрирует, что целевая оптимизация рассуждений может значительно улучшить качество мультимодальных эмбеддингов, предоставляя практичное и эффективное решение для разработки UME, управляемой рассуждениями.
English
Leveraging Multimodal Large Language Models (MLLMs) has become pivotal for advancing Universal Multimodal Embeddings (UME) in addressing diverse cross-modal tasks. Recent studies demonstrate that incorporating generative Chain-of-Thought (CoT) reasoning can substantially enhance task-specific representations compared to discriminative methods. However, the generated reasoning CoTs of existing generative embedding methods are limited to the textual analysis of queries and are irrelevant to the retrieval of the targets. To address these limitations, we propose a reasoning-driven UME framework that integrates Embedder-Guided Reinforcement Learning (EG-RL) to optimize the Reasoner to produce evidential Traceability CoT (T-CoT). Our key contributions are threefold: (1) We design an EG-RL framework where the Embedder provides explicit supervision to the Reasoner, ensuring the generated CoT traces are aligned with embedding tasks. (2) We introduce T-CoT, which extracts critical multimodal cues to focus on retrieval-relevant elements and provides multimodal inputs for the Embedder. (3) With limited computational resources, our framework outperforms the pioneering embedding model on both MMEB-V2 and UVRB benchmarks. The integration of multimodal evidence in structured reasoning, paired with retrieval-oriented alignment, effectively strengthens cross-modal semantic consistency and boosts the fine-grained matching capability of the model as well as the generalization across complex scenarios. Our work demonstrates that targeted reasoning optimization can significantly improve multimodal embedding quality, providing a practical and efficient solution for reasoning-driven UME development.
PDF72February 18, 2026