SQUARE: Fusión Aumentada por Consulta Semántica y Reranking Eficiente por Lotes para la Recuperación de Imágenes Compuestas Cero-Shot sin Entrenamiento

Resumen

La Recuperación de Imágenes Compuestas (CIR, por sus siglas en inglés) tiene como objetivo recuperar imágenes objetivo que preserven el contenido visual de una imagen de referencia mientras incorporan modificaciones textuales especificadas por el usuario. Los enfoques de CIR de cero disparos (ZS-CIR) sin entrenamiento, que no requieren entrenamiento específico para la tarea ni datos etiquetados, son altamente deseables, aunque capturar con precisión la intención del usuario sigue siendo un desafío. En este artículo, presentamos SQUARE, un marco novedoso de dos etapas sin entrenamiento que aprovecha los Modelos de Lenguaje Multimodal de Gran Escala (MLLMs) para mejorar el ZS-CIR. En la etapa de Fusión Aumentada con Consulta Semántica (SQAF, por sus siglas en inglés), enriquecemos la incrustación de la consulta derivada de un modelo de visión y lenguaje (VLM) como CLIP con descripciones generadas por el MLLM de la imagen objetivo. Estas descripciones proporcionan una guía semántica de alto nivel, permitiendo que la consulta capture mejor la intención del usuario y mejore la calidad global de la recuperación. En la etapa de Reordenación Eficiente por Lotes (EBR, por sus siglas en inglés), los candidatos mejor clasificados se presentan como una cuadrícula de imágenes con marcas visuales al MLLM, que realiza un razonamiento visual-semántico conjunto en todos los candidatos. Nuestra estrategia de reordenación opera en una sola pasada y produce clasificaciones más precisas. Los experimentos muestran que SQUARE, con su simplicidad y efectividad, ofrece un rendimiento sólido en cuatro benchmarks estándar de CIR. Notablemente, mantiene un alto rendimiento incluso con modelos preentrenados livianos, demostrando su potencial aplicabilidad.

English

Composed Image Retrieval (CIR) aims to retrieve target images that preserve the visual content of a reference image while incorporating user-specified textual modifications. Training-free zero-shot CIR (ZS-CIR) approaches, which require no task-specific training or labeled data, are highly desirable, yet accurately capturing user intent remains challenging. In this paper, we present SQUARE, a novel two-stage training-free framework that leverages Multimodal Large Language Models (MLLMs) to enhance ZS-CIR. In the Semantic Query-Augmented Fusion (SQAF) stage, we enrich the query embedding derived from a vision-language model (VLM) such as CLIP with MLLM-generated captions of the target image. These captions provide high-level semantic guidance, enabling the query to better capture the user's intent and improve global retrieval quality. In the Efficient Batch Reranking (EBR) stage, top-ranked candidates are presented as an image grid with visual marks to the MLLM, which performs joint visual-semantic reasoning across all candidates. Our reranking strategy operates in a single pass and yields more accurate rankings. Experiments show that SQUARE, with its simplicity and effectiveness, delivers strong performance on four standard CIR benchmarks. Notably, it maintains high performance even with lightweight pre-trained, demonstrating its potential applicability.

SQUARE: Fusión Aumentada por Consulta Semántica y Reranking Eficiente por Lotes para la Recuperación de Imágenes Compuestas Cero-Shot sin Entrenamiento

SQUARE: Semantic Query-Augmented Fusion and Efficient Batch Reranking for Training-free Zero-Shot Composed Image Retrieval

Resumen

Support