ChatPaper.aiChatPaper

SQUARE: Semantische Query-augmentatie, Fusie en Efficiënte Batch Herrangschikking voor Trainingsvrije Zero-Shot Samengestelde Beeldretrieval

SQUARE: Semantic Query-Augmented Fusion and Efficient Batch Reranking for Training-free Zero-Shot Composed Image Retrieval

September 30, 2025
Auteurs: Ren-Di Wu, Yu-Yen Lin, Huei-Fang Yang
cs.AI

Samenvatting

Composed Image Retrieval (CIR) heeft als doel om doelafbeeldingen op te halen die de visuele inhoud van een referentieafbeelding behouden, terwijl gebruikersspecifieke tekstuele aanpassingen worden geïntegreerd. Training-free zero-shot CIR (ZS-CIR) benaderingen, die geen taakspecifieke training of gelabelde gegevens vereisen, zijn zeer wenselijk, maar het nauwkeurig vastleggen van de gebruikersintentie blijft een uitdaging. In dit artikel presenteren we SQUARE, een nieuw tweestaps training-free raamwerk dat gebruikmaakt van Multimodale Large Language Models (MLLMs) om ZS-CIR te verbeteren. In de Semantic Query-Augmented Fusion (SQAF) fase verrijken we de query-embedding afgeleid van een vision-language model (VLM) zoals CLIP met MLLM-gegenereerde bijschriften van de doelafbeelding. Deze bijschriften bieden hoogwaardige semantische begeleiding, waardoor de query beter in staat is om de intentie van de gebruiker vast te leggen en de globale retrievalkwaliteit te verbeteren. In de Efficient Batch Reranking (EBR) fase worden de hoogst gerangschikte kandidaten gepresenteerd als een afbeeldingenrooster met visuele markeringen aan de MLLM, die gezamenlijke visueel-semantische redenering uitvoert over alle kandidaten. Onze herrangschikkingsstrategie werkt in één enkele stap en levert nauwkeurigere rangschikkingen op. Experimenten tonen aan dat SQUARE, met zijn eenvoud en effectiviteit, sterke prestaties levert op vier standaard CIR benchmarks. Opmerkelijk is dat het hoge prestaties behoudt, zelfs met lichtgewicht vooraf getrainde modellen, wat het potentieel voor toepasbaarheid aantoont.
English
Composed Image Retrieval (CIR) aims to retrieve target images that preserve the visual content of a reference image while incorporating user-specified textual modifications. Training-free zero-shot CIR (ZS-CIR) approaches, which require no task-specific training or labeled data, are highly desirable, yet accurately capturing user intent remains challenging. In this paper, we present SQUARE, a novel two-stage training-free framework that leverages Multimodal Large Language Models (MLLMs) to enhance ZS-CIR. In the Semantic Query-Augmented Fusion (SQAF) stage, we enrich the query embedding derived from a vision-language model (VLM) such as CLIP with MLLM-generated captions of the target image. These captions provide high-level semantic guidance, enabling the query to better capture the user's intent and improve global retrieval quality. In the Efficient Batch Reranking (EBR) stage, top-ranked candidates are presented as an image grid with visual marks to the MLLM, which performs joint visual-semantic reasoning across all candidates. Our reranking strategy operates in a single pass and yields more accurate rankings. Experiments show that SQUARE, with its simplicity and effectiveness, delivers strong performance on four standard CIR benchmarks. Notably, it maintains high performance even with lightweight pre-trained, demonstrating its potential applicability.
PDF13October 3, 2025