ChatPaper.aiChatPaper

VLM2Vec-V2: Avanzando en la Incrustación Multimodal para Videos, Imágenes y Documentos Visuales

VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents

July 7, 2025
Autores: Rui Meng, Ziyan Jiang, Ye Liu, Mingyi Su, Xinyi Yang, Yuepeng Fu, Can Qin, Zeyuan Chen, Ran Xu, Caiming Xiong, Yingbo Zhou, Wenhu Chen, Semih Yavuz
cs.AI

Resumen

Los modelos de incrustación multimodal han sido cruciales para habilitar diversas tareas posteriores, como la similitud semántica, la recuperación de información y la agrupación en diferentes modalidades. Sin embargo, las incrustaciones multimodales existentes, como VLM2Vec, E5-V y GME, se centran predominantemente en imágenes naturales, con un soporte limitado para otras formas visuales, como videos y documentos visuales. Esto restringe su aplicabilidad en escenarios del mundo real, incluyendo agentes de IA, búsqueda y recomendación multimodal, y generación aumentada por recuperación (RAG). Para cerrar esta brecha, proponemos VLM2Vec-V2, un marco unificado para el aprendizaje de incrustaciones en diversas formas visuales. Primero, presentamos MMEB-V2, un punto de referencia integral que extiende MMEB con cinco nuevos tipos de tareas: recuperación de documentos visuales, recuperación de videos, localización temporal, clasificación de videos y respuesta a preguntas de video, abarcando entradas de texto, imagen, video y documentos visuales. A continuación, entrenamos VLM2Vec-V2, un modelo de incrustación de propósito general que admite entradas de texto, imagen, video y documentos visuales. Experimentos extensos muestran que VLM2Vec-V2 logra un rendimiento sólido no solo en las tareas de recuperación de videos y documentos recién introducidas, sino que también mejora los puntos de referencia anteriores en los benchmarks originales de imágenes. A través de una evaluación exhaustiva, nuestro estudio ofrece perspectivas sobre la generalizabilidad de varios modelos de incrustación multimodal y destaca estrategias efectivas para el aprendizaje unificado de incrustaciones, sentando las bases para un aprendizaje de representación más escalable y adaptable tanto en investigación como en entornos del mundo real.
English
Multimodal embedding models have been crucial in enabling various downstream tasks such as semantic similarity, information retrieval, and clustering over different modalities. However, existing multimodal embeddings like VLM2Vec, E5-V, GME are predominantly focused on natural images, with limited support for other visual forms such as videos and visual documents. This restricts their applicability in real-world scenarios, including AI agents, multi-modal search and recommendation, and retrieval-augmented generation (RAG). To close this gap, we propose VLM2Vec-V2, a unified framework for learning embeddings across diverse visual forms. First, we introduce MMEB-V2, a comprehensive benchmark that extends MMEB with five new task types: visual document retrieval, video retrieval, temporal grounding, video classification and video question answering - spanning text, image, video, and visual document inputs. Next, we train VLM2Vec-V2, a general-purpose embedding model that supports text, image, video, and visual document inputs. Extensive experiments show that VLM2Vec-V2 achieves strong performance not only on the newly introduced video and document retrieval tasks, but also improves over prior baselines on the original image benchmarks. Through extensive evaluation, our study offers insights into the generalizability of various multimodal embedding models and highlights effective strategies for unified embedding learning, laying the groundwork for more scalable and adaptable representation learning in both research and real-world settings.
PDF41July 8, 2025