ChatPaper.aiChatPaper

Aprendizaje Contrastivo con Negativos Difíciles para la Comprensión Geométrica de Detalle en Modelos Multimodales de Gran Escala

Hard Negative Contrastive Learning for Fine-Grained Geometric Understanding in Large Multimodal Models

May 26, 2025
Autores: Kai Sun, Yushi Bai, Zhen Yang, Jiajie Zhang, Ji Qi, Lei Hou, Juanzi Li
cs.AI

Resumen

Aprovechando los codificadores visuales entrenados de manera contrastiva en imágenes a gran escala de escenas naturales, los Modelos Multimodales de Gran Escala (LMMs) han logrado un rendimiento notable en diversas tareas de percepción visual. Sin embargo, las limitaciones inherentes del aprendizaje contrastivo basado en descripciones resumidas restringen fundamentalmente las capacidades de los modelos en el razonamiento meticuloso, particularmente en escenarios cruciales de resolución de problemas geométricos. Para mejorar la comprensión geométrica, proponemos un novedoso marco de aprendizaje contrastivo con negativos difíciles para el codificador visual, que combina el aprendizaje contrastivo basado en imágenes utilizando negativos difíciles generados mediante la perturbación del código de generación de diagramas, y el aprendizaje contrastivo basado en texto utilizando negativos basados en reglas derivados de descripciones geométricas modificadas y negativos basados en recuperación seleccionados según la similitud de los subtítulos. Entrenamos CLIP utilizando nuestro método de aprendizaje con negativos fuertes, denominado MMCLIP (Multimodal Math CLIP), y posteriormente entrenamos un LMM para la resolución de problemas geométricos. Los experimentos muestran que nuestro modelo entrenado, MMGeoLM, supera significativamente a otros modelos de código abierto en tres benchmarks de razonamiento geométrico. Incluso con un tamaño de 7B, puede rivalizar con modelos potentes de código cerrado como GPT-4o. Además, estudiamos el impacto de diferentes métodos de construcción de muestras negativas y el número de muestras negativas en el rendimiento del razonamiento geométrico de los LMM, obteniendo conclusiones fructíferas. El código y el conjunto de datos están disponibles en https://github.com/THU-KEG/MMGeoLM.
English
Benefiting from contrastively trained visual encoders on large-scale natural scene images, Large Multimodal Models (LMMs) have achieved remarkable performance across various visual perception tasks. However, the inherent limitations of contrastive learning upon summarized descriptions fundamentally restrict the capabilities of models in meticulous reasoning, particularly in crucial scenarios of geometric problem-solving. To enhance geometric understanding, we propose a novel hard negative contrastive learning framework for the vision encoder, which combines image-based contrastive learning using generation-based hard negatives created by perturbing diagram generation code, and text-based contrastive learning using rule-based negatives derived from modified geometric descriptions and retrieval-based negatives selected based on caption similarity. We train CLIP using our strong negative learning method, namely MMCLIP (Multimodal Math CLIP), and subsequently train an LMM for geometric problem-solving. Experiments show that our trained model, MMGeoLM, significantly outperforms other open-source models on three geometric reasoning benchmarks. Even with a size of 7B, it can rival powerful closed-source models like GPT-4o. We further study the impact of different negative sample construction methods and the number of negative samples on the geometric reasoning performance of LMM, yielding fruitful conclusions. The code and dataset are available at https://github.com/THU-KEG/MMGeoLM.

Summary

AI-Generated Summary

PDF111May 27, 2025