Jungle de béton : Vers une extraction contrastive de négatifs pavée de concrétude pour la compréhension compositionnelle

Résumé

Les modèles vision-langue démontrent des capacités remarquables mais peinent souvent avec le raisonnement compositionnel, présentant des vulnérabilités concernant l'ordre des mots et la liaison des attributs. Cette limitation découle d'une pénurie d'échantillons informatifs nécessaires pour différencier les variations sémantiques subtiles lors du pré-entraînement contrastif. Bien que l'extraction d'exemples négatifs difficiles offre une solution prometteuse, les méthodes existantes manquent de mécanismes explicites pour dicter quels éléments linguistiques subissent une modification. Plutôt que de concevoir des architectures génératives, cette étude établit la concrétude lexicale comme un déterminant fondamental de l'efficacité des échantillons négatifs. Modifier les termes très concrets génère des discordances structurelles et visuelles plus prononcées, fournissant un signal d'apprentissage substantiellement plus fort. En s'appuyant sur ce principe, ConcretePlant est proposé pour isoler et manipuler systématiquement des concepts ancrés dans la perception. Des analyses de l'InfoNCE révèlent également un déséquilibre sévère des gradients, où les paires facilement distinguables submergent disproportionnément le processus d'optimisation et restreignent la bande passante disponible pour un apprentissage nuancé. Pour résoudre cette dégradation, la fonction de perte Cement est formulée en utilisant une approche à base de marge. En corrélant les scores psycholinguistiques avec la difficulté des échantillons, cet objectif calibre dynamiquement la pénalisation appliquée aux paires d'entraînement individuelles. Des évaluations complètes étayent ces affirmations théoriques. Le cadre intégré, désigné sous le nom de Slipform, atteint une précision de pointe sur divers benchmarks d'évaluation compositionnelle, la recherche cross-modale générale, et le sondage linéaire à étiquette unique et multiple.

English

Vision-Language Models demonstrate remarkable capabilities but often struggle with compositional reasoning, exhibiting vulnerabilities regarding word order and attribute binding. This limitation arises from a scarcity of informative samples needed to differentiate subtle semantic variations during contrastive pretraining. Although hard negative mining offers a promising remedy, existing methods lack explicit mechanisms to dictate which linguistic elements undergo modification. Instead of engineering generative architectures, this study establishes lexical concreteness as a fundamental determinant of negative sample efficacy. Modifying highly concrete terms generates more pronounced structural and visual discrepancies, providing a substantially stronger learning signal. Leveraging this principle, ConcretePlant is proposed to systematically isolate and manipulate perceptually grounded concepts. Analyses of the InfoNCE further reveals a severe gradient imbalance, where easily distinguishable pairs disproportionately overwhelm the optimization process and restrict the bandwidth available for nuanced learning. To resolve this degradation, the Cement loss is formulated utilizing a margin-based approach. By correlating psycholinguistic scores with sample difficulty, this objective dynamically calibrates the penalization applied to individual training pairs. Comprehensive evaluations substantiate these theoretical claims. The integrated framework, designated as Slipform, achieves state-of-the-art accuracy across diverse compositional evaluation benchmarks, general cross-modal retrieval, single and multi label linear probing.

Jungle de béton : Vers une extraction contrastive de négatifs pavée de concrétude pour la compréhension compositionnelle

Concrete Jungle: Towards Concreteness Paved Contrastive Negative Mining for Compositional Understanding

Résumé

Support