Selva de Concreto: Rumo à Mineração Contrastiva de Negativos Pavimentada pela Concretude para a Compreensão Composicional
Concrete Jungle: Towards Concreteness Paved Contrastive Negative Mining for Compositional Understanding
April 14, 2026
Autores: Eun Woo Im, Dhruv Madhwal, Vivek Gupta
cs.AI
Resumo
Os Modelos Visão-Linguagem demonstram capacidades notáveis, mas frequentemente apresentam dificuldades com o raciocínio composicional, exibindo vulnerabilidades em relação à ordem das palavras e à vinculação de atributos. Esta limitação surge da escassez de amostras informativas necessárias para diferenciar variações semânticas subtis durante o pré-treinamento contrastivo. Embora a mineração de negativos difíceis ofereça um remédio promissor, os métodos existentes carecem de mecanismos explícitos para ditar quais elementos linguísticos sofrem modificação. Em vez de desenvolver arquiteturas generativas, este estudo estabelece a concretude lexical como um determinante fundamental da eficácia da amostra negativa. Modificar termos altamente concretos gera discrepâncias estruturais e visuais mais pronunciadas, fornecendo um sinal de aprendizagem substancialmente mais forte. Aproveitando este princípio, o ConcretePlant é proposto para isolar e manipular sistematicamente conceitos perceptualmente fundamentados. Análises da função InfoNCE revelam ainda um grave desequilíbrio de gradientes, onde pares facilmente distinguíveis dominam desproporcionalmente o processo de otimização e restringem a largura de banda disponível para uma aprendizagem nuances. Para resolver esta degradação, a função de perda Cement é formulada utilizando uma abordagem baseada em margens. Ao correlacionar escores psicolinguísticos com a dificuldade da amostra, este objetivo calibra dinamicamente a penalização aplicada a pares de treino individuais. Avaliações abrangentes substantivam estas alegações teóricas. O framework integrado, designado como Slipform, atinge uma precisão state-of-the-art em diversos benchmarks de avaliação composicional, recuperação cruzada modal geral, e sondagem linear com etiqueta única e múltipla.
English
Vision-Language Models demonstrate remarkable capabilities but often struggle with compositional reasoning, exhibiting vulnerabilities regarding word order and attribute binding. This limitation arises from a scarcity of informative samples needed to differentiate subtle semantic variations during contrastive pretraining. Although hard negative mining offers a promising remedy, existing methods lack explicit mechanisms to dictate which linguistic elements undergo modification. Instead of engineering generative architectures, this study establishes lexical concreteness as a fundamental determinant of negative sample efficacy. Modifying highly concrete terms generates more pronounced structural and visual discrepancies, providing a substantially stronger learning signal. Leveraging this principle, ConcretePlant is proposed to systematically isolate and manipulate perceptually grounded concepts. Analyses of the InfoNCE further reveals a severe gradient imbalance, where easily distinguishable pairs disproportionately overwhelm the optimization process and restrict the bandwidth available for nuanced learning. To resolve this degradation, the Cement loss is formulated utilizing a margin-based approach. By correlating psycholinguistic scores with sample difficulty, this objective dynamically calibrates the penalization applied to individual training pairs. Comprehensive evaluations substantiate these theoretical claims. The integrated framework, designated as Slipform, achieves state-of-the-art accuracy across diverse compositional evaluation benchmarks, general cross-modal retrieval, single and multi label linear probing.