ChatPaper.aiChatPaper

SQUARE: Fusão Aumentada por Consulta Semântica e Reclassificação Eficiente em Lote para Recuperação de Imagens Compostas Zero-Shot sem Treinamento

SQUARE: Semantic Query-Augmented Fusion and Efficient Batch Reranking for Training-free Zero-Shot Composed Image Retrieval

September 30, 2025
Autores: Ren-Di Wu, Yu-Yen Lin, Huei-Fang Yang
cs.AI

Resumo

A Recuperação de Imagens Compostas (Composed Image Retrieval - CIR) visa recuperar imagens-alvo que preservem o conteúdo visual de uma imagem de referência, ao mesmo tempo que incorporam modificações textuais especificadas pelo usuário. Abordagens de CIR zero-shot (ZS-CIR) sem treinamento, que não exigem treinamento específico para a tarefa ou dados rotulados, são altamente desejáveis, mas capturar com precisão a intenção do usuário continua sendo um desafio. Neste artigo, apresentamos o SQUARE, uma nova estrutura em duas etapas sem treinamento que aproveita Modelos de Linguagem Multimodal de Grande Escala (Multimodal Large Language Models - MLLMs) para aprimorar o ZS-CIR. Na etapa de Fusão Aumentada por Consulta Semântica (Semantic Query-Augmented Fusion - SQAF), enriquecemos o embedding de consulta derivado de um modelo de visão e linguagem (Vision-Language Model - VLM), como o CLIP, com legendas geradas pelo MLLM da imagem-alvo. Essas legendas fornecem orientação semântica de alto nível, permitindo que a consulta capture melhor a intenção do usuário e melhore a qualidade global da recuperação. Na etapa de Reclassificação Eficiente em Lote (Efficient Batch Reranking - EBR), os candidatos mais bem classificados são apresentados como uma grade de imagens com marcas visuais ao MLLM, que realiza raciocínio visual-semântico conjunto em todos os candidatos. Nossa estratégia de reclassificação opera em uma única passagem e produz classificações mais precisas. Experimentos mostram que o SQUARE, com sua simplicidade e eficácia, oferece um desempenho forte em quatro benchmarks padrão de CIR. Notavelmente, ele mantém um alto desempenho mesmo com modelos pré-treinados leves, demonstrando sua potencial aplicabilidade.
English
Composed Image Retrieval (CIR) aims to retrieve target images that preserve the visual content of a reference image while incorporating user-specified textual modifications. Training-free zero-shot CIR (ZS-CIR) approaches, which require no task-specific training or labeled data, are highly desirable, yet accurately capturing user intent remains challenging. In this paper, we present SQUARE, a novel two-stage training-free framework that leverages Multimodal Large Language Models (MLLMs) to enhance ZS-CIR. In the Semantic Query-Augmented Fusion (SQAF) stage, we enrich the query embedding derived from a vision-language model (VLM) such as CLIP with MLLM-generated captions of the target image. These captions provide high-level semantic guidance, enabling the query to better capture the user's intent and improve global retrieval quality. In the Efficient Batch Reranking (EBR) stage, top-ranked candidates are presented as an image grid with visual marks to the MLLM, which performs joint visual-semantic reasoning across all candidates. Our reranking strategy operates in a single pass and yields more accurate rankings. Experiments show that SQUARE, with its simplicity and effectiveness, delivers strong performance on four standard CIR benchmarks. Notably, it maintains high performance even with lightweight pre-trained, demonstrating its potential applicability.
PDF13October 3, 2025