Giungla di Cemento: Verso un'Estrazione di Negativi Contrastivi Lastricata dalla Concretezza per la Comprensione Composizionale
Concrete Jungle: Towards Concreteness Paved Contrastive Negative Mining for Compositional Understanding
April 14, 2026
Autori: Eun Woo Im, Dhruv Madhwal, Vivek Gupta
cs.AI
Abstract
I modelli visione-linguaggio dimostrano capacità notevoli ma spesso incontrano difficoltà nel ragionamento composizionale, mostrando vulnerabilità riguardo all'ordine delle parole e al legame degli attributi. Questa limitazione deriva dalla scarsità di campioni informativi necessari per differenziare sottili variazioni semantiche durante il pre-addestramento contrastivo. Sebbene l'estrazione di negativi difficili offra un rimedio promettente, i metodi esistenti mancano di meccanismi espliciti per determinare quali elementi linguistici subiscono modifiche. Invece di progettare architetture generative, questo studio stabilisce la concretezza lessicale come determinante fondamentale dell'efficacia dei campioni negativi. La modifica di termini altamente concreti genera discrepanze strutturali e visive più marcate, fornendo un segnale di apprendimento sostanzialmente più forte. Sfruttando questo principio, viene proposto ConcretePlant per isolare e manipolare sistematicamente concetti percettivamente ancorati. Le analisi dell'InfoNCE rivelano inoltre un grave squilibrio del gradiente, in cui coppie facilmente distinguibili sovrastano sproporzionatamente il processo di ottimizzazione e restringono la banda disponibile per l'apprendimento sfumato. Per risolvere questa degradazione, la funzione di perdita Cement viene formulata utilizzando un approccio basato su margini. Correlando punteggi psicolinguistici con la difficoltà del campione, questo obiettivo calibra dinamicamente la penalizzazione applicata alle singole coppie di addestramento. Valutazioni complete sostengono queste tesi teoriche. Il framework integrato, denominato Slipform, raggiunge un'accuratezza allo stato dell'arte su vari benchmark di valutazione composizionale, recupero cross-modale generale, e probe lineari a etichetta singola e multipla.
English
Vision-Language Models demonstrate remarkable capabilities but often struggle with compositional reasoning, exhibiting vulnerabilities regarding word order and attribute binding. This limitation arises from a scarcity of informative samples needed to differentiate subtle semantic variations during contrastive pretraining. Although hard negative mining offers a promising remedy, existing methods lack explicit mechanisms to dictate which linguistic elements undergo modification. Instead of engineering generative architectures, this study establishes lexical concreteness as a fundamental determinant of negative sample efficacy. Modifying highly concrete terms generates more pronounced structural and visual discrepancies, providing a substantially stronger learning signal. Leveraging this principle, ConcretePlant is proposed to systematically isolate and manipulate perceptually grounded concepts. Analyses of the InfoNCE further reveals a severe gradient imbalance, where easily distinguishable pairs disproportionately overwhelm the optimization process and restrict the bandwidth available for nuanced learning. To resolve this degradation, the Cement loss is formulated utilizing a margin-based approach. By correlating psycholinguistic scores with sample difficulty, this objective dynamically calibrates the penalization applied to individual training pairs. Comprehensive evaluations substantiate these theoretical claims. The integrated framework, designated as Slipform, achieves state-of-the-art accuracy across diverse compositional evaluation benchmarks, general cross-modal retrieval, single and multi label linear probing.