Betonnen Jungle: Op Weg naar een Concrete Aanpak voor Contrastief Negatieve Mijnbouw voor Compositioneel Begrip
Concrete Jungle: Towards Concreteness Paved Contrastive Negative Mining for Compositional Understanding
April 14, 2026
Auteurs: Eun Woo Im, Dhruv Madhwal, Vivek Gupta
cs.AI
Samenvatting
Vision-Language Models vertonen opmerkelijke capaciteiten, maar hebben vaak moeite met compositioneel redeneren en vertonen kwetsbaarheden met betrekking tot woordvolgorde en attribuutbinding. Deze beperking ontstaat door een schaarste aan informatieve voorbeelden die nodig zijn om subtiele semantische variaties te onderscheiden tijdens contrastieve voorpretraining. Hoewel hard negative mining een veelbelovend middel biedt, ontbreekt het bestaande methoden aan expliciete mechanismen om te bepalen welke linguïstische elementen worden gemodificeerd. In plaats van generatieve architecturen te ontwerpen, stelt deze studie lexicale concreetheid vast als een fundamentele determinant van de effectiviteit van negatieve voorbeelden. Het modificeren van zeer concrete termen genereert meer uitgesproken structurele en visuele verschillen, wat een aanzienlijk sterker leersignaal oplevert. Gebruikmakend van dit principe wordt ConcretePlant voorgesteld om perceptueel verankerde concepten systematisch te isoleren en te manipuleren. Analyses van de InfoNCE-loss onthullen verder een ernstig gradientenonevenwicht, waarbij gemakkelijk te onderscheiden paren het optimalisatieproces onevenredig overweldigen en de beschikbare bandbreedte voor genuanceerd leren beperken. Om deze degradatie op te lossen, wordt de Cement-loss geformuleerd met behulp van een op marge gebaseerde aanpak. Door psycholinguïstische scores te correleren met voorbeeldmoeilijkheid, kalibreert deze objectief dynamisch de straf die op individuele trainingsparen wordt toegepast. Uitgebreide evaluaties ondersteunen deze theoretische beweringen. Het geïntegreerde raamwerk, aangeduid als Slipform, behaalt state-of-the-art nauwkeurigheid op diverse compositionele evaluatiebenchmarks, algemene cross-modale retrievals en single- en multi-label lineaire probing.
English
Vision-Language Models demonstrate remarkable capabilities but often struggle with compositional reasoning, exhibiting vulnerabilities regarding word order and attribute binding. This limitation arises from a scarcity of informative samples needed to differentiate subtle semantic variations during contrastive pretraining. Although hard negative mining offers a promising remedy, existing methods lack explicit mechanisms to dictate which linguistic elements undergo modification. Instead of engineering generative architectures, this study establishes lexical concreteness as a fundamental determinant of negative sample efficacy. Modifying highly concrete terms generates more pronounced structural and visual discrepancies, providing a substantially stronger learning signal. Leveraging this principle, ConcretePlant is proposed to systematically isolate and manipulate perceptually grounded concepts. Analyses of the InfoNCE further reveals a severe gradient imbalance, where easily distinguishable pairs disproportionately overwhelm the optimization process and restrict the bandwidth available for nuanced learning. To resolve this degradation, the Cement loss is formulated utilizing a margin-based approach. By correlating psycholinguistic scores with sample difficulty, this objective dynamically calibrates the penalization applied to individual training pairs. Comprehensive evaluations substantiate these theoretical claims. The integrated framework, designated as Slipform, achieves state-of-the-art accuracy across diverse compositional evaluation benchmarks, general cross-modal retrieval, single and multi label linear probing.