Jenseits skalarer Distanzen: Semantische Attributgradienten aus eingefrorenen MLLMs für visuelle Einbettungen

Zusammenfassung

Bildencoder für das Retrieval werden typischerweise mit Überwachung durch Klassenlabels trainiert: jedes Trainingspaar reduziert sich auf einen Skalar, der die Einbettung gleichmäßig auseinanderdrückt oder zusammenzieht, als ob jedes visuelle Attribut entweder unterschiedlich oder gleich wäre. Ein multimodales großes Sprachmodell (MLLM), dem das gleiche Paar gezeigt wird, kann diese Attribute artikulieren und sie nutzen, um vorherzusagen, ob die Bilder eine gemeinsame Klasse haben. Wir schlagen SAGA vor, ein Framework, das diese sprachbasierte, attributbewusste Wahrnehmung in ein Trainingssignal für den Encoder selbst verwandelt. Insbesondere verwenden wir eine Gruppenrelative Policy-Optimierung (GRPO), um das MLLM für korrekte Vorhersagen auf den Token des Bildencoders zu belohnen. Da korrekte Vorhersagen erfordern, dass diese Token die spezifischen Attribute offenbaren, die sich zwischen dem Paar unterscheiden oder gleichen, treibt der Gradient den Encoder dazu an, diese zu kodieren, und ersetzt den gleichförmigen paarebenen Skalar durch eine attributaufgelöste Überwachung. Ein zusätzlicher Aufmerksamkeits-Destillationsverlust verankert die Einbettung des Encoders in den Token, auf die das MLLM achtete, und ein Standard-Metric-Learning-Verlust formt die Einbettungsgeometrie für das Nächste-Nachbarn-Retrieval. Das MLLM bleibt während des gesamten Prozesses eingefroren und wird zur Inferenz verworfen, was den Bereitstellungskosten einer Metric-Learning-Baseline entspricht. SAGA verbessert die Recall@1 um 3 bis 6 Punkte gegenüber modernsten Basislinien auf CUB-200-2011, Cars-196, FGVC-Aircraft und iNaturalist Aves beim Zero-Shot-Bildretrieval.

English

Vision encoders for retrieval are typically trained with class-label supervision: each training pair reduces to a scalar that uniformly pushes the embedding apart or pulls it together, as if every visual attribute either differed or matched. A multimodal large language model (MLLM), shown the same pair, can articulate those attributes and use them to predict whether the images share a class. We propose SAGA, a framework that turns this language-grounded, attribute-aware perception into a training signal for the encoder itself. Specifically, we use Group Relative Policy Optimization (GRPO) to reward the MLLM for correct predictions on the vision encoder's tokens. Since correct predictions require those tokens to expose the specific attributes that differ or match between the pair, the gradient pushes the encoder to encode them, replacing the uniform pair-level scalar with attribute-resolved supervision. An auxiliary attention-distillation loss anchors the encoder's embedding to tokens the MLLM attended to, and a standard metric-learning loss shapes the embedding geometry for nearest-neighbour retrieval. The MLLM is frozen throughout and discarded at inference, matching the deployment cost of a metric-learning baseline. SAGA improves Recall@1 by 3 to 6 points over state-of-the-art baselines on CUB-200-2011, Cars-196, FGVC-Aircraft, and iNaturalist Aves on zero-shot image retrieval.