За пределами скалярных расстояний: градиенты семантических атрибутов из замороженных MLLM для визуальных эмбеддингов

Аннотация

Кодировщики изображений для поиска обычно обучаются с использованием меток классов: каждая обучающая пара сводится к скаляру, который равномерно раздвигает или сближает эмбеддинги, как будто каждый визуальный признак либо различается, либо совпадает. Мультимодальная большая языковая модель (MLLM), получая ту же пару, может сформулировать эти признаки и использовать их для прогнозирования того, относятся ли изображения к одному классу. Мы предлагаем SAGA — фреймворк, который преобразует это основанное на языке, учитывающее признаки восприятие в обучающий сигнал для самого кодировщика. В частности, мы используем групповую относительную оптимизацию политики (GRPO) для вознаграждения MLLM за правильные прогнозы на основе токенов кодировщика изображений. Поскольку правильные прогнозы требуют, чтобы эти токены выявляли конкретные признаки, которые различаются или совпадают в паре, градиент побуждает кодировщик кодировать их, заменяя единообразный скаляр на уровне пары на супервизию с разрешением по признакам. Вспомогательная функция потерь дистилляции внимания привязывает эмбеддинг кодировщика к токенам, на которые обращала внимание MLLM, а стандартная функция потерь метрического обучения формирует геометрию эмбеддинга для поиска по ближайшим соседям. MLLM остается замороженной на протяжении всего процесса и отбрасывается при инференсе, что соответствует стоимости развертывания базового метода метрического обучения. SAGA улучшает показатель Recall@1 на 3–6 пунктов по сравнению с современными базовыми методами на наборах данных CUB-200-2011, Cars-196, FGVC-Aircraft и iNaturalist Aves в задаче нулевого поиска изображений.

English

Vision encoders for retrieval are typically trained with class-label supervision: each training pair reduces to a scalar that uniformly pushes the embedding apart or pulls it together, as if every visual attribute either differed or matched. A multimodal large language model (MLLM), shown the same pair, can articulate those attributes and use them to predict whether the images share a class. We propose SAGA, a framework that turns this language-grounded, attribute-aware perception into a training signal for the encoder itself. Specifically, we use Group Relative Policy Optimization (GRPO) to reward the MLLM for correct predictions on the vision encoder's tokens. Since correct predictions require those tokens to expose the specific attributes that differ or match between the pair, the gradient pushes the encoder to encode them, replacing the uniform pair-level scalar with attribute-resolved supervision. An auxiliary attention-distillation loss anchors the encoder's embedding to tokens the MLLM attended to, and a standard metric-learning loss shapes the embedding geometry for nearest-neighbour retrieval. The MLLM is frozen throughout and discarded at inference, matching the deployment cost of a metric-learning baseline. SAGA improves Recall@1 by 3 to 6 points over state-of-the-art baselines on CUB-200-2011, Cars-196, FGVC-Aircraft, and iNaturalist Aves on zero-shot image retrieval.