Más allá de las distancias escalares: Gradientes de atributos semánticos a partir de MLLMs congelados para embeddings visuales

Resumen

Los codificadores visuales para recuperación suelen entrenarse con supervisión basada en etiquetas de clase: cada par de entrenamiento se reduce a un escalar que uniformemente separa o acerca las representaciones, como si cada atributo visual fuera diferente o coincidiera. Un modelo de lenguaje grande multimodal (MLLM), al ver el mismo par, puede articular esos atributos y utilizarlos para predecir si las imágenes comparten una clase. Proponemos SAGA, un marco que convierte esta percepción fundada en lenguaje y consciente de atributos en una señal de entrenamiento para el propio codificador. Específicamente, empleamos Optimización Relativa de Políticas por Grupo (GRPO) para recompensar al MLLM por predicciones correctas basadas en los tokens del codificador visual. Dado que las predicciones correctas requieren que esos tokens expongan los atributos específicos que difieren o coinciden entre el par, el gradiente empuja al codificador a codificarlos, reemplazando el escalar uniforme a nivel de par por una supervisión resuelta en atributos. Una pérdida auxiliar de destilación por atención ancla la representación del codificador a los tokens a los que el MLLM prestó atención, y una pérdida estándar de aprendizaje métrico da forma a la geometría de la representación para la recuperación por vecino más cercano. El MLLM se mantiene congelado durante todo el proceso y se descarta en inferencia, igualando el costo de despliegue de una línea base de aprendizaje métrico. SAGA mejora Recall@1 en 3 a 6 puntos con respecto a las líneas base de última generación en CUB-200-2011, Cars-196, FGVC-Aircraft e iNaturalist Aves en recuperación de imágenes zero-shot.

English

Vision encoders for retrieval are typically trained with class-label supervision: each training pair reduces to a scalar that uniformly pushes the embedding apart or pulls it together, as if every visual attribute either differed or matched. A multimodal large language model (MLLM), shown the same pair, can articulate those attributes and use them to predict whether the images share a class. We propose SAGA, a framework that turns this language-grounded, attribute-aware perception into a training signal for the encoder itself. Specifically, we use Group Relative Policy Optimization (GRPO) to reward the MLLM for correct predictions on the vision encoder's tokens. Since correct predictions require those tokens to expose the specific attributes that differ or match between the pair, the gradient pushes the encoder to encode them, replacing the uniform pair-level scalar with attribute-resolved supervision. An auxiliary attention-distillation loss anchors the encoder's embedding to tokens the MLLM attended to, and a standard metric-learning loss shapes the embedding geometry for nearest-neighbour retrieval. The MLLM is frozen throughout and discarded at inference, matching the deployment cost of a metric-learning baseline. SAGA improves Recall@1 by 3 to 6 points over state-of-the-art baselines on CUB-200-2011, Cars-196, FGVC-Aircraft, and iNaturalist Aves on zero-shot image retrieval.