Бетонные джунгли: к конкретному контрастному отбору негативных примеров для композиционного понимания
Concrete Jungle: Towards Concreteness Paved Contrastive Negative Mining for Compositional Understanding
April 14, 2026
Авторы: Eun Woo Im, Dhruv Madhwal, Vivek Gupta
cs.AI
Аннотация
Модели "визуальный язык" демонстрируют впечатляющие возможности, но часто испытывают трудности с композиционным мышлением, проявляя уязвимости в отношении порядка слов и связывания атрибутов. Это ограничение возникает из-за нехватки информативных примеров, необходимых для различения тонких семантических вариаций в процессе контрастивного предварительного обучения. Хотя выбор сложных негативных примеров предлагает многообещающее решение, существующие методы не имеют явных механизмов для определения того, какие лингвистические элементы подвергаются модификации. Вместо разработки генеративных архитектур данное исследование устанавливает лексическую конкретность как фундаментальный детерминант эффективности негативных примеров. Модификация высококонкретных терминов порождает более выраженные структурные и визуальные расхождения, обеспечивая существенно более сильный обучающий сигнал. На основе этого принципа предлагается ConcretePlant для систематического выделения и манипулирования перцептивно обоснованными концептами. Анализ функции потерь InfoNCE также выявляет серьезный дисбаланс градиентов, при котором легко различимые пары непропорционально доминируют в процессе оптимизации и ограничивают пропускную способность, доступную для тонкого обучения. Для устранения этой деградации формулируется функция потерь Cement с использованием подхода, основанного на зазоре. Путем корреляции психолингвистических оценок со сложностью примеров данная цель динамически калибрует штраф, применяемый к отдельным обучающим парам. Всесторонние оценки подтверждают эти теоретические положения. Интегрированная структура, обозначенная как Slipform, достигает наилучшей точности в различных бенчмарках для оценки композиционности, общей кросс-модальной retrieval-задачи, а также при линейном пробировании с одной и несколькими метками.
English
Vision-Language Models demonstrate remarkable capabilities but often struggle with compositional reasoning, exhibiting vulnerabilities regarding word order and attribute binding. This limitation arises from a scarcity of informative samples needed to differentiate subtle semantic variations during contrastive pretraining. Although hard negative mining offers a promising remedy, existing methods lack explicit mechanisms to dictate which linguistic elements undergo modification. Instead of engineering generative architectures, this study establishes lexical concreteness as a fundamental determinant of negative sample efficacy. Modifying highly concrete terms generates more pronounced structural and visual discrepancies, providing a substantially stronger learning signal. Leveraging this principle, ConcretePlant is proposed to systematically isolate and manipulate perceptually grounded concepts. Analyses of the InfoNCE further reveals a severe gradient imbalance, where easily distinguishable pairs disproportionately overwhelm the optimization process and restrict the bandwidth available for nuanced learning. To resolve this degradation, the Cement loss is formulated utilizing a margin-based approach. By correlating psycholinguistic scores with sample difficulty, this objective dynamically calibrates the penalization applied to individual training pairs. Comprehensive evaluations substantiate these theoretical claims. The integrated framework, designated as Slipform, achieves state-of-the-art accuracy across diverse compositional evaluation benchmarks, general cross-modal retrieval, single and multi label linear probing.