Betonierte Wildnis: Hin zu einer durch Konkretheit gepflasterten kontrastiven Negativauswahl für das kompositionelle Verständnis
Concrete Jungle: Towards Concreteness Paved Contrastive Negative Mining for Compositional Understanding
April 14, 2026
Autoren: Eun Woo Im, Dhruv Madhwal, Vivek Gupta
cs.AI
Zusammenfassung
Vision-Language Models zeigen bemerkenswerte Fähigkeiten, haben aber oft Schwierigkeiten mit kompositionellem Reasoning und weisen Schwachstellen in Bezug auf Wortstellung und Attributbindung auf. Diese Einschränkung ergibt sich aus einer Knappheit an informativen Beispielen, die benötigt werden, um subtile semantische Variationen während des kontrastiven Pretrainings zu differenzieren. Obwohl Hard Negative Mining einen vielversprechenden Ansatz bietet, fehlen bestehenden Methoden explizite Mechanismen, um festzulegen, welche linguistischen Elemente modifiziert werden sollen. Anstatt generative Architekturen zu entwickeln, identifiziert diese Studie lexikalische Konkretheit als grundlegenden Determinanten für die Wirksamkeit negativer Beispiele. Die Modifikation hochkonkreter Begriffe erzeugt ausgeprägtere strukturelle und visuelle Diskrepanzen und liefert damit ein deutlich stärkeres Lernsignal. Aufbauend auf diesem Prinzip wird ConcretePlant vorgeschlagen, um wahrnehmungsbasierte Konzepte systematisch zu isolieren und zu manipulieren. Analysen der InfoNCE-Funktion zeigen zudem ein schwerwiegendes Gradientenungleichgewicht, bei dem leicht unterscheidbare Paare den Optimierungsprozess unverhältnismäßig dominieren und die verfügbare Bandbreite für nuanciertes Lernen einschränken. Um diese Degradierung zu beheben, wird der Cement-Loss mit einem margenbasierten Ansatz formuliert. Indem psycholinguistische Scores mit dem Schwierigkeitsgrad von Beispielen korreliert werden, kalibriert diese Zielgröße die Bestrafung für einzelne Trainingspaare dynamisch. Umfassende Evaluationen untermauern diese theoretischen Annahmen. Das integrierte Framework, bezeichnet als Slipform, erreicht state-of-the-art Genauigkeit in diversen kompositionellen Evaluierungsbenchmarks, allgemeinem cross-modalem Retrieval sowie linearer Klassifikation mit Einzel- und Mehrfachlabels.
English
Vision-Language Models demonstrate remarkable capabilities but often struggle with compositional reasoning, exhibiting vulnerabilities regarding word order and attribute binding. This limitation arises from a scarcity of informative samples needed to differentiate subtle semantic variations during contrastive pretraining. Although hard negative mining offers a promising remedy, existing methods lack explicit mechanisms to dictate which linguistic elements undergo modification. Instead of engineering generative architectures, this study establishes lexical concreteness as a fundamental determinant of negative sample efficacy. Modifying highly concrete terms generates more pronounced structural and visual discrepancies, providing a substantially stronger learning signal. Leveraging this principle, ConcretePlant is proposed to systematically isolate and manipulate perceptually grounded concepts. Analyses of the InfoNCE further reveals a severe gradient imbalance, where easily distinguishable pairs disproportionately overwhelm the optimization process and restrict the bandwidth available for nuanced learning. To resolve this degradation, the Cement loss is formulated utilizing a margin-based approach. By correlating psycholinguistic scores with sample difficulty, this objective dynamically calibrates the penalization applied to individual training pairs. Comprehensive evaluations substantiate these theoretical claims. The integrated framework, designated as Slipform, achieves state-of-the-art accuracy across diverse compositional evaluation benchmarks, general cross-modal retrieval, single and multi label linear probing.