Apprentissage Contrastif par Négatifs Difficiles pour la Compréhension Géométrique Fine dans les Grands Modèles Multimodaux
Hard Negative Contrastive Learning for Fine-Grained Geometric Understanding in Large Multimodal Models
May 26, 2025
Auteurs: Kai Sun, Yushi Bai, Zhen Yang, Jiajie Zhang, Ji Qi, Lei Hou, Juanzi Li
cs.AI
Résumé
Tirant parti des encodeurs visuels entraînés de manière contrastive sur des images à grande échelle de scènes naturelles, les Modèles Multimodaux de Grande Taille (LMMs) ont obtenu des performances remarquables dans diverses tâches de perception visuelle. Cependant, les limitations inhérentes à l'apprentissage contrastif basé sur des descriptions résumées restreignent fondamentalement les capacités des modèles en matière de raisonnement minutieux, en particulier dans des scénarios cruciaux de résolution de problèmes géométriques. Pour améliorer la compréhension géométrique, nous proposons un nouveau cadre d'apprentissage contrastif avec des négatifs difficiles pour l'encodeur visuel, qui combine l'apprentissage contrastif basé sur les images utilisant des négatifs difficiles générés par perturbation du code de génération de diagrammes, et l'apprentissage contrastif basé sur le texte utilisant des négatifs basés sur des règles dérivés de descriptions géométriques modifiées et des négatifs basés sur la récupération sélectionnés selon la similarité des légendes. Nous entraînons CLIP avec notre méthode d'apprentissage par négatifs forts, nommée MMCLIP (Multimodal Math CLIP), puis nous entraînons un LMM pour la résolution de problèmes géométriques. Les expériences montrent que notre modèle entraîné, MMGeoLM, surpasse significativement d'autres modèles open-source sur trois benchmarks de raisonnement géométrique. Même avec une taille de 7B, il peut rivaliser avec des modèles puissants et propriétaires comme GPT-4o. Nous étudions en outre l'impact des différentes méthodes de construction des échantillons négatifs et du nombre d'échantillons négatifs sur la performance en raisonnement géométrique des LMM, obtenant des conclusions fructueuses. Le code et le jeu de données sont disponibles à l'adresse https://github.com/THU-KEG/MMGeoLM.
English
Benefiting from contrastively trained visual encoders on large-scale natural
scene images, Large Multimodal Models (LMMs) have achieved remarkable
performance across various visual perception tasks. However, the inherent
limitations of contrastive learning upon summarized descriptions fundamentally
restrict the capabilities of models in meticulous reasoning, particularly in
crucial scenarios of geometric problem-solving. To enhance geometric
understanding, we propose a novel hard negative contrastive learning framework
for the vision encoder, which combines image-based contrastive learning using
generation-based hard negatives created by perturbing diagram generation code,
and text-based contrastive learning using rule-based negatives derived from
modified geometric descriptions and retrieval-based negatives selected based on
caption similarity. We train CLIP using our strong negative learning method,
namely MMCLIP (Multimodal Math CLIP), and subsequently train an LMM for
geometric problem-solving. Experiments show that our trained model, MMGeoLM,
significantly outperforms other open-source models on three geometric reasoning
benchmarks. Even with a size of 7B, it can rival powerful closed-source models
like GPT-4o. We further study the impact of different negative sample
construction methods and the number of negative samples on the geometric
reasoning performance of LMM, yielding fruitful conclusions. The code and
dataset are available at https://github.com/THU-KEG/MMGeoLM.Summary
AI-Generated Summary