SQUARE: Semantische Query-augmentatie, Fusie en Efficiënte Batch Herrangschikking voor Trainingsvrije Zero-Shot Samengestelde Beeldretrieval
SQUARE: Semantic Query-Augmented Fusion and Efficient Batch Reranking for Training-free Zero-Shot Composed Image Retrieval
September 30, 2025
Auteurs: Ren-Di Wu, Yu-Yen Lin, Huei-Fang Yang
cs.AI
Samenvatting
Composed Image Retrieval (CIR) heeft als doel om doelafbeeldingen op te halen die de visuele inhoud van een referentieafbeelding behouden, terwijl gebruikersspecifieke tekstuele aanpassingen worden geïntegreerd. Training-free zero-shot CIR (ZS-CIR) benaderingen, die geen taakspecifieke training of gelabelde gegevens vereisen, zijn zeer wenselijk, maar het nauwkeurig vastleggen van de gebruikersintentie blijft een uitdaging. In dit artikel presenteren we SQUARE, een nieuw tweestaps training-free raamwerk dat gebruikmaakt van Multimodale Large Language Models (MLLMs) om ZS-CIR te verbeteren. In de Semantic Query-Augmented Fusion (SQAF) fase verrijken we de query-embedding afgeleid van een vision-language model (VLM) zoals CLIP met MLLM-gegenereerde bijschriften van de doelafbeelding. Deze bijschriften bieden hoogwaardige semantische begeleiding, waardoor de query beter in staat is om de intentie van de gebruiker vast te leggen en de globale retrievalkwaliteit te verbeteren. In de Efficient Batch Reranking (EBR) fase worden de hoogst gerangschikte kandidaten gepresenteerd als een afbeeldingenrooster met visuele markeringen aan de MLLM, die gezamenlijke visueel-semantische redenering uitvoert over alle kandidaten. Onze herrangschikkingsstrategie werkt in één enkele stap en levert nauwkeurigere rangschikkingen op. Experimenten tonen aan dat SQUARE, met zijn eenvoud en effectiviteit, sterke prestaties levert op vier standaard CIR benchmarks. Opmerkelijk is dat het hoge prestaties behoudt, zelfs met lichtgewicht vooraf getrainde modellen, wat het potentieel voor toepasbaarheid aantoont.
English
Composed Image Retrieval (CIR) aims to retrieve target images that preserve
the visual content of a reference image while incorporating user-specified
textual modifications. Training-free zero-shot CIR (ZS-CIR) approaches, which
require no task-specific training or labeled data, are highly desirable, yet
accurately capturing user intent remains challenging. In this paper, we present
SQUARE, a novel two-stage training-free framework that leverages Multimodal
Large Language Models (MLLMs) to enhance ZS-CIR. In the Semantic
Query-Augmented Fusion (SQAF) stage, we enrich the query embedding derived from
a vision-language model (VLM) such as CLIP with MLLM-generated captions of the
target image. These captions provide high-level semantic guidance, enabling the
query to better capture the user's intent and improve global retrieval quality.
In the Efficient Batch Reranking (EBR) stage, top-ranked candidates are
presented as an image grid with visual marks to the MLLM, which performs joint
visual-semantic reasoning across all candidates. Our reranking strategy
operates in a single pass and yields more accurate rankings. Experiments show
that SQUARE, with its simplicity and effectiveness, delivers strong performance
on four standard CIR benchmarks. Notably, it maintains high performance even
with lightweight pre-trained, demonstrating its potential applicability.