Полуправда нарушает поиск на основе сходства

Аннотация

Когда текстовое описание дополняется новой деталью, сходство между изображением и текстом должно снижаться, если эта деталь неверна. Мы показываем, что дуальные энкодеры в стиле CLIP часто нарушают эту интуицию: добавление правдоподобного, но неверного объекта или отношения к в остальном правильному описанию может увеличить оценку сходства. Мы называем такие случаи полуправдой. На наборе данных COCO CLIP предпочитает правильное краткое описание лишь в 40,6% случаев, а производительность падает до 32,9%, когда добавленная деталь является отношением. Мы связываем эту уязвимость со слабым контролем за частями описаний: контрастивное обучение выравнивает полные предложения, но явно не принуждает к заземлению отдельных сущностей и отношений. Мы предлагаем CS-CLIP (Component-Supervised CLIP), который разлагает подписи на единицы сущностей и отношений, конструирует минимально измененную ложную версию для каждой единицы и дообучает модель оценивать правильную единицу выше её ложной версии, сохраняя стандартный вывод дуального энкодера. CS-CLIP повышает точность на задачах с полуправдой до 69,3% и улучшает среднюю производительность на установленных композиционных тестах на 5,7 пунктов, что позволяет предположить, что сокращение ошибок полуправды согласуется с более широкими успехами в композиционном понимании. Код общедоступен по адресу: https://github.com/kargibora/CS-CLIP

English

When a text description is extended with an additional detail, image-text similarity should drop if that detail is wrong. We show that CLIP-style dual encoders often violate this intuition: appending a plausible but incorrect object or relation to an otherwise correct description can increase the similarity score. We call such cases half-truths. On COCO, CLIP prefers the correct shorter description only 40.6% of the time, and performance drops to 32.9% when the added detail is a relation. We trace this vulnerability to weak supervision on caption parts: contrastive training aligns full sentences but does not explicitly enforce that individual entities and relations are grounded. We propose CS-CLIP (Component-Supervised CLIP), which decomposes captions into entity and relation units, constructs a minimally edited foil for each unit, and fine-tunes the model to score the correct unit above its foil while preserving standard dual-encoder inference. CS-CLIP raises half-truth accuracy to 69.3% and improves average performance on established compositional benchmarks by 5.7 points, suggesting that reducing half-truth errors aligns with broader gains in compositional understanding. Code is publicly available at: https://github.com/kargibora/CS-CLIP

Полуправда нарушает поиск на основе сходства

Half-Truths Break Similarity-Based Retrieval

Аннотация

Support