Les demi-vérités compromettent la récupération d'information par similarité

Résumé

Lorsqu'une description textuelle est étendue avec un détail supplémentaire, la similarité image-texte devrait diminuer si ce détail est incorrect. Nous montrons que les encodeurs doubles de type CLIP violent souvent cette intuition : ajouter un objet ou une relation plausible mais incorrecte à une description par ailleurs correcte peut augmenter le score de similarité. Nous appelons ces cas des demi-vérités. Sur COCO, CLIP ne préfère la description courte correcte que 40,6 % du temps, et cette performance chute à 32,9 % lorsque le détail ajouté est une relation. Nous attribuons cette vulnérabilité à une supervision faible des parties de légende : l'apprentissage contrastif aligne des phrases complètes mais n'impose pas explicitement que les entités et relations individuelles soient ancrées. Nous proposons CS-CLIP (CLIP à Supervision par Composants), qui décompose les légendes en unités d'entités et de relations, construit un leurre minimalement modifié pour chaque unité, et affine le modèle pour qu'il évalue l'unité correcte au-dessus de son leurre tout en préservant l'inférence standard des encodeurs doubles. CS-CLIP augmente la précision sur les demi-vérités à 69,3 % et améliore les performances moyennes sur des benchmarks compositionnels établis de 5,7 points, suggérant que réduire les erreurs de demi-vérités s'aligne sur des gains plus larges dans la compréhension compositionnelle. Le code est disponible publiquement à : https://github.com/kargibora/CS-CLIP

English

When a text description is extended with an additional detail, image-text similarity should drop if that detail is wrong. We show that CLIP-style dual encoders often violate this intuition: appending a plausible but incorrect object or relation to an otherwise correct description can increase the similarity score. We call such cases half-truths. On COCO, CLIP prefers the correct shorter description only 40.6% of the time, and performance drops to 32.9% when the added detail is a relation. We trace this vulnerability to weak supervision on caption parts: contrastive training aligns full sentences but does not explicitly enforce that individual entities and relations are grounded. We propose CS-CLIP (Component-Supervised CLIP), which decomposes captions into entity and relation units, constructs a minimally edited foil for each unit, and fine-tunes the model to score the correct unit above its foil while preserving standard dual-encoder inference. CS-CLIP raises half-truth accuracy to 69.3% and improves average performance on established compositional benchmarks by 5.7 points, suggesting that reducing half-truth errors aligns with broader gains in compositional understanding. Code is publicly available at: https://github.com/kargibora/CS-CLIP

Les demi-vérités compromettent la récupération d'information par similarité

Half-Truths Break Similarity-Based Retrieval

Résumé

Support