ABC: 시각적 언어 모델을 활용한 멀티모달 임베딩 제어 개선
ABC: Achieving Better Control of Multimodal Embeddings using VLMs
March 1, 2025
저자: Benjamin Schneider, Florian Kerschbaum, Wenhu Chen
cs.AI
초록
시각 임베딩 모델은 시각 검색 및 분류와 같은 제로샷 작업에서 뛰어난 성능을 보입니다. 그러나 이러한 모델은 모호성을 포함하거나 사용자 지시가 필요한 작업에는 사용할 수 없습니다. 이러한 작업에는 시각적 입력과 자연어 입력을 결합한 임베딩을 출력하는 멀티모달 임베딩 모델이 필요합니다. 기존의 CLIP 기반 접근법은 이미지와 텍스트를 독립적으로 임베딩한 후 결과를 융합합니다. 우리는 이러한 방식이 모달리티 간의 약한 상호작용과 표현에 대한 사용자 제어의 부족을 초래한다는 것을 발견했습니다. 우리는 ABC라는 오픈소스 멀티모달 임베딩 모델을 소개합니다. 이 모델은 시각-언어 모델 백본을 사용하여 이미지 특징과 자연어 지시를 깊이 통합합니다. ABC는 MSCOCO 이미지-텍스트 검색에서 크기 대비 최고 성능을 달성했으며, Massive Multimodal Embedding Benchmark에서 분류 및 VQA 작업에서 최고 성능을 보이는 모델입니다. 강력하게 통합된 시각-언어 표현을 통해 ABC는 자연어를 사용하여 미묘하고 잠재적으로 모호한 시각 검색 문제를 해결할 수 있습니다. 이 능력을 평가하기 위해, 우리는 CtrlBench라는 벤치마크를 설계했습니다. 이 벤치마크는 올바른 검색을 위해 텍스트 지시와 이미지 내용을 교차적으로 사용해야 합니다. ABC는 고품질의 표현과 유연한 자연어 제어를 제공함으로써 멀티모달 임베딩의 최신 기술을 발전시킵니다. 우리의 모델과 데이터셋은 프로젝트 페이지에서 확인할 수 있습니다.
English
Visual embedding models excel at zero-shot tasks like visual retrieval and
classification. However, these models cannot be used for tasks that contain
ambiguity or require user instruction. These tasks necessitate a multimodal
embedding model, which outputs embeddings that combine visual and natural
language input. Existing CLIP-based approaches embed images and text
independently, and fuse the result. We find that this results in weak
interactions between modalities, and poor user control over the representation.
We introduce ABC, an open-source multimodal embedding model that uses a
vision-language model backbone to deeply integrate image features with natural
language instructions. ABC achieves bestfor-size performance on MSCOCO
image-to-text retrieval and is the top performing model on classification and
VQA tasks in the Massive Multimodal Embedding Benchmark. With a strongly
unified vision-language representation, ABC can use natural language to solve
subtle and potentially ambiguous visual retrieval problems. To evaluate this
capability, we design CtrlBench, a benchmark that requires interleaving textual
instructions with image content for correct retrieval. ABC advances the state
of multimodal embeddings by offering high-quality representations and flexible
natural language control. Our model and datasets are available at our project
page.Summary
AI-Generated Summary