Selva de Concreto: Hacia una Minería de Negativos Contrastivos Pavimentada por la Concreción para la Comprensión Composicional

Resumen

Los modelos de visión y lenguaje demuestran capacidades notables, pero a menudo luchan con el razonamiento compositivo, exhibiendo vulnerabilidades en cuanto al orden de las palabras y la vinculación de atributos. Esta limitación surge de la escasez de muestras informativas necesarias para diferenciar variaciones semánticas sutiles durante el preentrenamiento contrastivo. Aunque la minería de negativos difíciles ofrece una solución prometedora, los métodos existentes carecen de mecanismos explícitos para dictar qué elementos lingüísticos se someten a modificación. En lugar de diseñar arquitecturas generativas, este estudio establece la concreción léxica como un determinante fundamental de la eficacia de las muestras negativas. Modificar términos altamente concretos genera discrepancias estructurales y visuales más pronunciadas, proporcionando una señal de aprendizaje sustancialmente más fuerte. Aprovechando este principio, se propone ConcretePlant para aislar y manipular sistemáticamente conceptos perceptualmente fundamentados. Los análisis de la función InfoNCE revelan además un grave desequilibrio de gradientes, donde los pares fácilmente distinguibles abruman desproporcionadamente el proceso de optimización y restringen el ancho de banda disponible para el aprendizaje matizado. Para resolver esta degradación, se formula la pérdida Cement utilizando un enfoque basado en márgenes. Al correlacionar las puntuaciones psicolingüísticas con la dificultad de la muestra, este objetivo calibra dinámicamente el castigo aplicado a los pares de entrenamiento individuales. Las evaluaciones exhaustivas corroboran estas afirmaciones teóricas. El marco integrado, designado como Slipform, logra una precisión de vanguardia en diversos puntos de referencia de evaluación compositiva, recuperación cruzada modal general, y sondeo lineal con una o múltiples etiquetas.

English

Vision-Language Models demonstrate remarkable capabilities but often struggle with compositional reasoning, exhibiting vulnerabilities regarding word order and attribute binding. This limitation arises from a scarcity of informative samples needed to differentiate subtle semantic variations during contrastive pretraining. Although hard negative mining offers a promising remedy, existing methods lack explicit mechanisms to dictate which linguistic elements undergo modification. Instead of engineering generative architectures, this study establishes lexical concreteness as a fundamental determinant of negative sample efficacy. Modifying highly concrete terms generates more pronounced structural and visual discrepancies, providing a substantially stronger learning signal. Leveraging this principle, ConcretePlant is proposed to systematically isolate and manipulate perceptually grounded concepts. Analyses of the InfoNCE further reveals a severe gradient imbalance, where easily distinguishable pairs disproportionately overwhelm the optimization process and restrict the bandwidth available for nuanced learning. To resolve this degradation, the Cement loss is formulated utilizing a margin-based approach. By correlating psycholinguistic scores with sample difficulty, this objective dynamically calibrates the penalization applied to individual training pairs. Comprehensive evaluations substantiate these theoretical claims. The integrated framework, designated as Slipform, achieves state-of-the-art accuracy across diverse compositional evaluation benchmarks, general cross-modal retrieval, single and multi label linear probing.

Selva de Concreto: Hacia una Minería de Negativos Contrastivos Pavimentada por la Concreción para la Comprensión Composicional

Concrete Jungle: Towards Concreteness Paved Contrastive Negative Mining for Compositional Understanding

Resumen

Support