Halve waarheden ondermijnen op gelijkenis gebaseerde informatie-opvraging

Samenvatting

Wanneer een tekstbeschrijving wordt uitgebreid met een extra detail, zou de beeld-tekstovereenkomst moeten dalen als dat detail onjuist is. Wij tonen aan dat CLIP-stijl dual encoders vaak tegen deze intuïtie ingaan: het toevoegen van een plausibel maar incorrect object of een relatie aan een verder correcte beschrijving kan de similariteitsscore verhogen. Wij noemen dergelijke gevallen halve waarheden. Op COCO prefereert CLIP slechts 40,6% van de tijd de correcte kortere beschrijving, en de prestaties dalen tot 32,9% wanneer het toegevoegde detail een relatie is. Wij herleiden deze kwetsbaarheid tot zwak toezicht op onderdelen van bijschriften: contrastieve training aligneert volledige zinnen, maar legt niet expliciet op dat individuele entiteiten en relaties gegrond zijn. Wij stellen CS-CLIP (Component-Supervised CLIP) voor, dat bijschriften ontleedt in eenheidsentiteiten en relaties, een minimaal bewerkte afleider voor elke eenheid construeert, en het model fine-tunt om de correcte eenheid hoger te scoren dan zijn afleider, terwijl standaard dual-encoder inferentie behouden blijft. CS-CLIP verhoogt de nauwkeurigheid voor halve waarheden tot 69,3% en verbetert de gemiddelde prestatie op gevestigde compositionele benchmarks met 5,7 punten, wat suggereert dat het verminderen van halve-waarheidfouten samenhangt met bredere winst in compositioneel begrip. Code is openbaar beschikbaar op: https://github.com/kargibora/CS-CLIP

English

When a text description is extended with an additional detail, image-text similarity should drop if that detail is wrong. We show that CLIP-style dual encoders often violate this intuition: appending a plausible but incorrect object or relation to an otherwise correct description can increase the similarity score. We call such cases half-truths. On COCO, CLIP prefers the correct shorter description only 40.6% of the time, and performance drops to 32.9% when the added detail is a relation. We trace this vulnerability to weak supervision on caption parts: contrastive training aligns full sentences but does not explicitly enforce that individual entities and relations are grounded. We propose CS-CLIP (Component-Supervised CLIP), which decomposes captions into entity and relation units, constructs a minimally edited foil for each unit, and fine-tunes the model to score the correct unit above its foil while preserving standard dual-encoder inference. CS-CLIP raises half-truth accuracy to 69.3% and improves average performance on established compositional benchmarks by 5.7 points, suggesting that reducing half-truth errors aligns with broader gains in compositional understanding. Code is publicly available at: https://github.com/kargibora/CS-CLIP

Halve waarheden ondermijnen op gelijkenis gebaseerde informatie-opvraging

Half-Truths Break Similarity-Based Retrieval

Samenvatting

Support