ILIAS: 대규모 인스턴스 수준 이미지 검색
ILIAS: Instance-Level Image retrieval At Scale
February 17, 2025
저자: Giorgos Kordopatis-Zilos, Vladan Stojnić, Anna Manko, Pavel Šuma, Nikolaos-Antonios Ypsilantis, Nikos Efthymiadis, Zakaria Laskar, Jiří Matas, Ondřej Chum, Giorgos Tolias
cs.AI
초록
본 연구는 대규모 인스턴스 수준 이미지 검색을 위한 새로운 테스트 데이터셋인 ILIAS를 소개합니다. 이 데이터셋은 현재 및 미래의 파운데이션 모델과 검색 기술이 특정 객체를 인식하는 능력을 평가하기 위해 설계되었습니다. 기존 데이터셋에 비해 주요 장점으로는 대규모 데이터, 다양한 도메인, 정확한 실측 데이터, 그리고 아직 포화되지 않은 성능이 있습니다. ILIAS는 1,000개의 객체 인스턴스에 대한 쿼리 및 긍정 이미지를 포함하며, 이는 도전적인 조건과 다양한 도메인을 포착하기 위해 수동으로 수집되었습니다. 대규모 검색은 YFCC100M의 1억 개의 디스트랙터 이미지에 대해 수행됩니다. 추가 주석 작업 없이도 거짓 부정을 피하기 위해, 우리는 YFCC100M의 컴파일 날짜인 2014년 이후에 등장한 것으로 확인된 쿼리 객체만 포함시켰습니다. 광범위한 벤치마킹을 수행한 결과 다음과 같은 관찰을 얻었습니다: i) 랜드마크나 제품과 같은 특정 도메인에 맞춰 미세 조정된 모델은 해당 도메인에서는 뛰어나지만 ILIAS에서는 실패함, ii) 다중 도메인 클래스 감독을 사용하여 선형 적응 계층을 학습하면 성능이 향상되며, 특히 비전-언어 모델에서 두드러짐, iii) 검색 재순위에서의 로컬 디스크립터는 여전히 핵심 요소이며, 특히 심각한 배경 혼란 상황에서 중요함, iv) 비전-언어 파운데이션 모델의 텍스트-이미지 성능은 해당 이미지-이미지 경우와 놀라울 정도로 가까움. 웹사이트: https://vrg.fel.cvut.cz/ilias/
English
This work introduces ILIAS, a new test dataset for Instance-Level Image
retrieval At Scale. It is designed to evaluate the ability of current and
future foundation models and retrieval techniques to recognize particular
objects. The key benefits over existing datasets include large scale, domain
diversity, accurate ground truth, and a performance that is far from saturated.
ILIAS includes query and positive images for 1,000 object instances, manually
collected to capture challenging conditions and diverse domains. Large-scale
retrieval is conducted against 100 million distractor images from YFCC100M. To
avoid false negatives without extra annotation effort, we include only query
objects confirmed to have emerged after 2014, i.e. the compilation date of
YFCC100M. An extensive benchmarking is performed with the following
observations: i) models fine-tuned on specific domains, such as landmarks or
products, excel in that domain but fail on ILIAS ii) learning a linear
adaptation layer using multi-domain class supervision results in performance
improvements, especially for vision-language models iii) local descriptors in
retrieval re-ranking are still a key ingredient, especially in the presence of
severe background clutter iv) the text-to-image performance of the
vision-language foundation models is surprisingly close to the corresponding
image-to-image case. website: https://vrg.fel.cvut.cz/ilias/Summary
AI-Generated Summary