ChatPaper.aiChatPaper

ObjEmbed: 범용 멀티모달 객체 임베딩을 향하여

ObjEmbed: Towards Universal Multimodal Object Embeddings

February 2, 2026
저자: Shenghao Fu, Yukun Su, Fengyun Rao, Jing Lyu, Xiaohua Xie, Wei-Shi Zheng
cs.AI

초록

객체를 해당 텍스트 설명과 정렬하는 것은 시각-언어 이해의 근본적인 과제이자 현실적인 요구사항입니다. 최근의 멀티모달 임베딩 모델들은 전반적인 이미지-텍스트 정렬에서는 뛰어난 성능을 보이지만, 이미지 영역과 특정 구문 간의 세밀한 정렬에는 종종 어려움을 겪습니다. 본 연구에서는 입력 이미지를 개별 객체에 해당하는 여러 지역 임베딩과 전역 임베딩으로 분해하는 새로운 MLLM 임베딩 모델인 ObjEmbed를 제시합니다. 이 모델은 시각적 grounding, 지역적 이미지 검색, 전역적 이미지 검색과 같은 다양한 시각 이해 작업을 지원합니다. ObjEmbed는 세 가지 주요 특성을 갖춥니다: (1) 객체 지향 표현: 각 영역에 대해 의미론적 매칭을 위한 객체 임베딩과 지역화 품질을 예측하는 IoU 임베딩이라는 두 가지 상호 보완적인 임베딩을 생성하여 객체의 의미론적 및 공간적 측면을 모두 포착합니다. 최종 객체 매칭 점수는 의미론적 유사도와 예측된 IoU를 결합하여 더 정확한 검색을 가능하게 합니다. (2) 다양성: 지역 수준 및 이미지 수준 작업을 원활하게 처리합니다. (3) 효율적인 인코딩: 이미지 내 모든 객체와 전체 이미지가 단일 순전파 과정에서 인코딩되어 높은 효율성을 제공합니다. 18개의 다양한 벤치마크에서의 우수한 성능은 강력한 의미론적 판별력을 입증합니다.
English
Aligning objects with corresponding textual descriptions is a fundamental challenge and a realistic requirement in vision-language understanding. While recent multimodal embedding models excel at global image-text alignment, they often struggle with fine-grained alignment between image regions and specific phrases. In this work, we present ObjEmbed, a novel MLLM embedding model that decomposes the input image into multiple regional embeddings, each corresponding to an individual object, along with global embeddings. It supports a wide range of visual understanding tasks like visual grounding, local image retrieval, and global image retrieval. ObjEmbed enjoys three key properties: (1) Object-Oriented Representation: It captures both semantic and spatial aspects of objects by generating two complementary embeddings for each region: an object embedding for semantic matching and an IoU embedding that predicts localization quality. The final object matching score combines semantic similarity with the predicted IoU, enabling more accurate retrieval. (2) Versatility: It seamlessly handles both region-level and image-level tasks. (3) Efficient Encoding: All objects in an image, along with the full image, are encoded in a single forward pass for high efficiency. Superior performance on 18 diverse benchmarks demonstrates its strong semantic discrimination.
PDF41February 5, 2026