Las Medias Verdades Comprometen la Recuperación Basada en Similitud

Resumen

Cuando una descripción textual se extiende con un detalle adicional, la similitud imagen-texto debería disminuir si ese detalle es incorrecto. Demostramos que los codificadores duales de estilo CLIP a menudo violan esta intuición: añadir un objeto o relación plausible pero incorrecto a una descripción por lo demás correcta puede aumentar la puntuación de similitud. Llamamos a estos casos *medias verdades*. En COCO, CLIP prefiere la descripción corta correcta solo el 40.6% de las veces, y el rendimiento desciende al 32.9% cuando el detalle añadido es una relación. Rastreamos esta vulnerabilidad hasta una supervisión débil sobre las partes de los epígrafes: el entrenamiento contrastivo alinea oraciones completas, pero no hace cumplir explícitamente que las entidades y relaciones individuales estén fundamentadas. Proponemos CS-CLIP (CLIP con Supervisión de Componentes), que descompone los epígrafes en unidades de entidad y relación, construye una alternativa mínimamente editada para cada unidad, y ajusta el modelo para que puntúe la unidad correcta por encima de su alternativa, preservando la inferencia estándar del codificador dual. CS-CLIP eleva la precisión en medias verdades al 69.3% y mejora el rendimiento promedio en benchmarks composicionales establecidos en 5.7 puntos, lo que sugiere que reducir los errores de medias verdades se alinea con ganancias más amplias en la comprensión composicional. El código está disponible públicamente en: https://github.com/kargibora/CS-CLIP

English

When a text description is extended with an additional detail, image-text similarity should drop if that detail is wrong. We show that CLIP-style dual encoders often violate this intuition: appending a plausible but incorrect object or relation to an otherwise correct description can increase the similarity score. We call such cases half-truths. On COCO, CLIP prefers the correct shorter description only 40.6% of the time, and performance drops to 32.9% when the added detail is a relation. We trace this vulnerability to weak supervision on caption parts: contrastive training aligns full sentences but does not explicitly enforce that individual entities and relations are grounded. We propose CS-CLIP (Component-Supervised CLIP), which decomposes captions into entity and relation units, constructs a minimally edited foil for each unit, and fine-tunes the model to score the correct unit above its foil while preserving standard dual-encoder inference. CS-CLIP raises half-truth accuracy to 69.3% and improves average performance on established compositional benchmarks by 5.7 points, suggesting that reducing half-truth errors aligns with broader gains in compositional understanding. Code is publicly available at: https://github.com/kargibora/CS-CLIP

Las Medias Verdades Comprometen la Recuperación Basada en Similitud

Half-Truths Break Similarity-Based Retrieval

Resumen

Support