Le Mezze Verità Compromettono il Recupero Basato sulla Similarità

Abstract

Quando una descrizione testuale viene estesa con un dettaglio aggiuntivo, la similarità immagine-testo dovrebbe diminuire se tale dettaglio è errato. Dimostriamo che i dual encoder in stile CLIP violano spesso questa intuizione: aggiungere un oggetto o una relazione plausibile ma incorretta a una descrizione altrimenti corretta può aumentare il punteggio di similarità. Chiamiamo questi casi "mezze verità". Su COCO, CLIP preferisce la descrizione più breve e corretta solo nel 40,6% dei casi, e la performance scende al 32,9% quando il dettaglio aggiunto è una relazione. Riconduciamo questa vulnerabilità a una supervisione debole sulle parti delle didascalie: l'addestramento contrastivo allinea frasi complete ma non impone esplicitamente che singole entità e relazioni siano ancorate alla realtà. Proponiamo CS-CLIP (Component-Supervised CLIP), che scompone le didascalie in unità di entità e relazioni, costruisce un'alternativa minimamente modificata per ciascuna unità e affina il modello per assegnare un punteggio più alto all'unità corretta rispetto alla sua alternativa, preservando al contempo l'inferenza standard del dual encoder. CS-CLIP aumenta l'accuratezza sulle mezze verità al 69,3% e migliora la performance media su benchmark composizionali consolidati di 5,7 punti, suggerendo che ridurre gli errori da mezza verità si allinea a guadagni più ampi nella comprensione composizionale. Il codice è disponibile pubblicamente all'indirizzo: https://github.com/kargibora/CS-CLIP

English

When a text description is extended with an additional detail, image-text similarity should drop if that detail is wrong. We show that CLIP-style dual encoders often violate this intuition: appending a plausible but incorrect object or relation to an otherwise correct description can increase the similarity score. We call such cases half-truths. On COCO, CLIP prefers the correct shorter description only 40.6% of the time, and performance drops to 32.9% when the added detail is a relation. We trace this vulnerability to weak supervision on caption parts: contrastive training aligns full sentences but does not explicitly enforce that individual entities and relations are grounded. We propose CS-CLIP (Component-Supervised CLIP), which decomposes captions into entity and relation units, constructs a minimally edited foil for each unit, and fine-tunes the model to score the correct unit above its foil while preserving standard dual-encoder inference. CS-CLIP raises half-truth accuracy to 69.3% and improves average performance on established compositional benchmarks by 5.7 points, suggesting that reducing half-truth errors aligns with broader gains in compositional understanding. Code is publicly available at: https://github.com/kargibora/CS-CLIP

Le Mezze Verità Compromettono il Recupero Basato sulla Similarità

Half-Truths Break Similarity-Based Retrieval

Abstract

Support