Au-delà des distances scalaires : gradients d'attributs sémantiques issus de MLLMs figés pour les plongements visuels

Résumé

Les encodeurs visuels pour la recherche sont généralement entraînés avec une supervision par étiquettes de classe : chaque paire d'entraînement se réduit à un scalaire qui éloigne ou rapproche uniformément le plongement, comme si chaque attribut visuel différait ou correspondait. Un modèle de langue multimodal de grande taille (MLLM), confronté à la même paire, peut articuler ces attributs et les utiliser pour prédire si les images partagent une classe. Nous proposons SAGA, un cadre qui transforme cette perception ancrée dans le langage et sensible aux attributs en un signal d'entraînement pour l'encodeur lui-même. Plus précisément, nous utilisons l'Optimisation de Politique Relative par Groupe (GRPO) pour récompenser le MLLM pour des prédictions correctes sur les tokens de l'encodeur visuel. Étant donné que des prédictions correctes nécessitent que ces tokens exposent les attributs spécifiques qui diffèrent ou correspondent entre la paire, le gradient pousse l'encodeur à les encoder, remplaçant le scalaire uniforme au niveau de la paire par une supervision résolue par attribut. Une perte auxiliaire de distillation d'attention ancre le plongement de l'encodeur sur les tokens auxquels le MLLM a prêté attention, et une perte standard d'apprentissage métrique façonne la géométrie du plongement pour la recherche par plus proche voisin. Le MLLM est gelé tout au long du processus et ignoré lors de l'inférence, égalant ainsi le coût de déploiement d'une référence d'apprentissage métrique. SAGA améliore le Recall@1 de 3 à 6 points par rapport aux références de pointe sur CUB-200-2011, Cars-196, FGVC-Aircraft et iNaturalist Aves pour la recherche d'images en zéro-shot.

English

Vision encoders for retrieval are typically trained with class-label supervision: each training pair reduces to a scalar that uniformly pushes the embedding apart or pulls it together, as if every visual attribute either differed or matched. A multimodal large language model (MLLM), shown the same pair, can articulate those attributes and use them to predict whether the images share a class. We propose SAGA, a framework that turns this language-grounded, attribute-aware perception into a training signal for the encoder itself. Specifically, we use Group Relative Policy Optimization (GRPO) to reward the MLLM for correct predictions on the vision encoder's tokens. Since correct predictions require those tokens to expose the specific attributes that differ or match between the pair, the gradient pushes the encoder to encode them, replacing the uniform pair-level scalar with attribute-resolved supervision. An auxiliary attention-distillation loss anchors the encoder's embedding to tokens the MLLM attended to, and a standard metric-learning loss shapes the embedding geometry for nearest-neighbour retrieval. The MLLM is frozen throughout and discarded at inference, matching the deployment cost of a metric-learning baseline. SAGA improves Recall@1 by 3 to 6 points over state-of-the-art baselines on CUB-200-2011, Cars-196, FGVC-Aircraft, and iNaturalist Aves on zero-shot image retrieval.