Halbwahrheiten beeinträchtigen ähnlichkeitsbasiertes Retrieval.

Zusammenfassung

Wenn eine Textbeschreibung um ein zusätzliches Detail erweitert wird, sollte die Bild-Text-Ähnlichkeit sinken, wenn dieses Detail falsch ist. Wir zeigen, dass CLIP-artige Dual-Encoder oft gegen diese Intuition verstoßen: Das Anhängen eines plausiblen, aber falschen Objekts oder einer Relation an eine ansonsten korrekte Beschreibung kann den Ähnlichkeitswert erhöhen. Wir bezeichnen solche Fälle als Halbwahrheiten. Bei COCO bevorzugt CLIP die korrekte kürzere Beschreibung nur in 40,6 % der Fälle, und die Leistung sinkt auf 32,9 %, wenn das hinzugefügte Detail eine Relation ist. Wir führen diese Anfälligkeit auf schwache Supervision von Beschreibungsteilen zurück: Kontrastives Training richtet vollständige Sätze aus, erzwingt aber nicht explizit, dass einzelne Entitäten und Relationen verankert werden. Wir schlagen CS-CLIP (Component-Supervised CLIP) vor, das Beschreibungen in Entitäts- und Relationseinheiten zerlegt, für jede Einheit eine minimal bearbeitete Fälschung konstruiert und das Modell feinabstimmt, um die korrekte Einheit höher zu bewerten als ihre Fälschung, wobei die standardmäßige Dual-Encoder-Inferenz beibehalten wird. CS-CLIP steigert die Halbwahrheitsgenauigkeit auf 69,3 % und verbessert die durchschnittliche Leistung auf etablierten kompositionellen Benchmarks um 5,7 Punkte, was darauf hindeutet, dass die Reduzierung von Halbwahrheitsfehlern mit breiteren Fortschritten im kompositionellen Verständnis einhergeht. Der Code ist öffentlich verfügbar unter: https://github.com/kargibora/CS-CLIP

English

When a text description is extended with an additional detail, image-text similarity should drop if that detail is wrong. We show that CLIP-style dual encoders often violate this intuition: appending a plausible but incorrect object or relation to an otherwise correct description can increase the similarity score. We call such cases half-truths. On COCO, CLIP prefers the correct shorter description only 40.6% of the time, and performance drops to 32.9% when the added detail is a relation. We trace this vulnerability to weak supervision on caption parts: contrastive training aligns full sentences but does not explicitly enforce that individual entities and relations are grounded. We propose CS-CLIP (Component-Supervised CLIP), which decomposes captions into entity and relation units, constructs a minimally edited foil for each unit, and fine-tunes the model to score the correct unit above its foil while preserving standard dual-encoder inference. CS-CLIP raises half-truth accuracy to 69.3% and improves average performance on established compositional benchmarks by 5.7 points, suggesting that reducing half-truth errors aligns with broader gains in compositional understanding. Code is publicly available at: https://github.com/kargibora/CS-CLIP

Halbwahrheiten beeinträchtigen ähnlichkeitsbasiertes Retrieval.

Half-Truths Break Similarity-Based Retrieval

Zusammenfassung

Support