ABC: Lograr un mejor control de los embeddings multimodales mediante VLMs
ABC: Achieving Better Control of Multimodal Embeddings using VLMs
March 1, 2025
Autores: Benjamin Schneider, Florian Kerschbaum, Wenhu Chen
cs.AI
Resumen
Los modelos de embeddings visuales sobresalen en tareas de zero-shot como la recuperación visual y la clasificación. Sin embargo, estos modelos no pueden utilizarse para tareas que contienen ambigüedad o requieren instrucciones del usuario. Estas tareas requieren un modelo de embedding multimodal, que genera embeddings que combinan entradas visuales y de lenguaje natural. Los enfoques basados en CLIP existentes incrustan imágenes y texto de forma independiente y fusionan el resultado. Descubrimos que esto resulta en interacciones débiles entre modalidades y un control deficiente del usuario sobre la representación. Presentamos ABC, un modelo de embedding multimodal de código abierto que utiliza un backbone de modelo visión-lenguaje para integrar profundamente las características de la imagen con instrucciones de lenguaje natural. ABC logra el mejor rendimiento para su tamaño en la recuperación de texto a imagen en MSCOCO y es el modelo con mejor desempeño en tareas de clasificación y VQA en el Massive Multimodal Embedding Benchmark. Con una representación visión-lenguaje fuertemente unificada, ABC puede utilizar lenguaje natural para resolver problemas sutiles y potencialmente ambiguos de recuperación visual. Para evaluar esta capacidad, diseñamos CtrlBench, un benchmark que requiere intercalar instrucciones textuales con contenido de imagen para una recuperación correcta. ABC avanza el estado del arte en embeddings multimodales al ofrecer representaciones de alta calidad y un control flexible mediante lenguaje natural. Nuestro modelo y conjuntos de datos están disponibles en nuestra página del proyecto.
English
Visual embedding models excel at zero-shot tasks like visual retrieval and
classification. However, these models cannot be used for tasks that contain
ambiguity or require user instruction. These tasks necessitate a multimodal
embedding model, which outputs embeddings that combine visual and natural
language input. Existing CLIP-based approaches embed images and text
independently, and fuse the result. We find that this results in weak
interactions between modalities, and poor user control over the representation.
We introduce ABC, an open-source multimodal embedding model that uses a
vision-language model backbone to deeply integrate image features with natural
language instructions. ABC achieves bestfor-size performance on MSCOCO
image-to-text retrieval and is the top performing model on classification and
VQA tasks in the Massive Multimodal Embedding Benchmark. With a strongly
unified vision-language representation, ABC can use natural language to solve
subtle and potentially ambiguous visual retrieval problems. To evaluate this
capability, we design CtrlBench, a benchmark that requires interleaving textual
instructions with image content for correct retrieval. ABC advances the state
of multimodal embeddings by offering high-quality representations and flexible
natural language control. Our model and datasets are available at our project
page.Summary
AI-Generated Summary