SQUARE: Fusión Aumentada por Consulta Semántica y Reranking Eficiente por Lotes para la Recuperación de Imágenes Compuestas Cero-Shot sin Entrenamiento
SQUARE: Semantic Query-Augmented Fusion and Efficient Batch Reranking for Training-free Zero-Shot Composed Image Retrieval
September 30, 2025
Autores: Ren-Di Wu, Yu-Yen Lin, Huei-Fang Yang
cs.AI
Resumen
La Recuperación de Imágenes Compuestas (CIR, por sus siglas en inglés) tiene como objetivo recuperar imágenes objetivo que preserven el contenido visual de una imagen de referencia mientras incorporan modificaciones textuales especificadas por el usuario. Los enfoques de CIR de cero disparos (ZS-CIR) sin entrenamiento, que no requieren entrenamiento específico para la tarea ni datos etiquetados, son altamente deseables, aunque capturar con precisión la intención del usuario sigue siendo un desafío. En este artículo, presentamos SQUARE, un marco novedoso de dos etapas sin entrenamiento que aprovecha los Modelos de Lenguaje Multimodal de Gran Escala (MLLMs) para mejorar el ZS-CIR. En la etapa de Fusión Aumentada con Consulta Semántica (SQAF, por sus siglas en inglés), enriquecemos la incrustación de la consulta derivada de un modelo de visión y lenguaje (VLM) como CLIP con descripciones generadas por el MLLM de la imagen objetivo. Estas descripciones proporcionan una guía semántica de alto nivel, permitiendo que la consulta capture mejor la intención del usuario y mejore la calidad global de la recuperación. En la etapa de Reordenación Eficiente por Lotes (EBR, por sus siglas en inglés), los candidatos mejor clasificados se presentan como una cuadrícula de imágenes con marcas visuales al MLLM, que realiza un razonamiento visual-semántico conjunto en todos los candidatos. Nuestra estrategia de reordenación opera en una sola pasada y produce clasificaciones más precisas. Los experimentos muestran que SQUARE, con su simplicidad y efectividad, ofrece un rendimiento sólido en cuatro benchmarks estándar de CIR. Notablemente, mantiene un alto rendimiento incluso con modelos preentrenados livianos, demostrando su potencial aplicabilidad.
English
Composed Image Retrieval (CIR) aims to retrieve target images that preserve
the visual content of a reference image while incorporating user-specified
textual modifications. Training-free zero-shot CIR (ZS-CIR) approaches, which
require no task-specific training or labeled data, are highly desirable, yet
accurately capturing user intent remains challenging. In this paper, we present
SQUARE, a novel two-stage training-free framework that leverages Multimodal
Large Language Models (MLLMs) to enhance ZS-CIR. In the Semantic
Query-Augmented Fusion (SQAF) stage, we enrich the query embedding derived from
a vision-language model (VLM) such as CLIP with MLLM-generated captions of the
target image. These captions provide high-level semantic guidance, enabling the
query to better capture the user's intent and improve global retrieval quality.
In the Efficient Batch Reranking (EBR) stage, top-ranked candidates are
presented as an image grid with visual marks to the MLLM, which performs joint
visual-semantic reasoning across all candidates. Our reranking strategy
operates in a single pass and yields more accurate rankings. Experiments show
that SQUARE, with its simplicity and effectiveness, delivers strong performance
on four standard CIR benchmarks. Notably, it maintains high performance even
with lightweight pre-trained, demonstrating its potential applicability.