Meias-Verdades Comprometem a Recuperação Baseada em Similaridade

Resumo

Quando uma descrição textual é estendida com um detalhe adicional, a similaridade imagem-texto deve diminuir se esse detalhe estiver incorreto. Demonstramos que os codificadores duais no estilo CLIP frequentemente violam essa intuição: anexar um objeto ou relação plausível, porém incorreto, a uma descrição que, de outra forma, estaria correta, pode aumentar a pontuação de similaridade. Denominamos tais casos de meias-verdades. No COCO, o CLIP prefere a descrição mais curta e correta apenas 40,6% das vezes, e o desempenho cai para 32,9% quando o detalhe adicionado é uma relação. Rastreamos essa vulnerabilidade até a supervisão fraca sobre partes das legendas: o treinamento contrastivo alinha frases completas, mas não impõe explicitamente que entidades e relações individuais sejam fundamentadas. Propomos o CS-CLIP (CLIP com Supervisão de Componentes), que decompõe as legendas em unidades de entidade e relação, constrói uma alternativa minimamente editada para cada unidade e ajusta o modelo para pontuar a unidade correta acima de sua alternativa, preservando a inferência padrão do codificador duplo. O CS-CLIP eleva a precisão para meias-verdades para 69,3% e melhora o desempenho médio em benchmarks composicionais estabelecidos em 5,7 pontos, sugerindo que reduzir erros de meias-verdades está alinhado com ganhos mais amplos na compreensão composicional. O código está publicamente disponível em: https://github.com/kargibora/CS-CLIP

English

When a text description is extended with an additional detail, image-text similarity should drop if that detail is wrong. We show that CLIP-style dual encoders often violate this intuition: appending a plausible but incorrect object or relation to an otherwise correct description can increase the similarity score. We call such cases half-truths. On COCO, CLIP prefers the correct shorter description only 40.6% of the time, and performance drops to 32.9% when the added detail is a relation. We trace this vulnerability to weak supervision on caption parts: contrastive training aligns full sentences but does not explicitly enforce that individual entities and relations are grounded. We propose CS-CLIP (Component-Supervised CLIP), which decomposes captions into entity and relation units, constructs a minimally edited foil for each unit, and fine-tunes the model to score the correct unit above its foil while preserving standard dual-encoder inference. CS-CLIP raises half-truth accuracy to 69.3% and improves average performance on established compositional benchmarks by 5.7 points, suggesting that reducing half-truth errors aligns with broader gains in compositional understanding. Code is publicly available at: https://github.com/kargibora/CS-CLIP

Meias-Verdades Comprometem a Recuperação Baseada em Similaridade

Half-Truths Break Similarity-Based Retrieval

Resumo

Support