Hard Negative Contrastief Leren voor Fijnmazig Geometrisch Begrip in Grote Multimodale Modellen
Hard Negative Contrastive Learning for Fine-Grained Geometric Understanding in Large Multimodal Models
May 26, 2025
Auteurs: Kai Sun, Yushi Bai, Zhen Yang, Jiajie Zhang, Ji Qi, Lei Hou, Juanzi Li
cs.AI
Samenvatting
Door te profiteren van visuele encoders die contrastief zijn getraind op grootschalige afbeeldingen van natuurlijke taferelen, hebben Large Multimodal Models (LMMs) opmerkelijke prestaties behaald in diverse visuele perceptietaken. De inherente beperkingen van contrastief leren op basis van samengevatte beschrijvingen beperken echter fundamenteel de mogelijkheden van modellen voor nauwkeurig redeneren, met name in cruciale scenario's van geometrisch probleemoplossen. Om het geometrische begrip te verbeteren, stellen we een nieuw hard negatief contrastief leerkader voor voor de visuele encoder, dat beeldgebaseerd contrastief leren combineert met generatiegebaseerde harde negatieven die worden gecreëerd door het verstoren van diagramgeneratiecode, en tekstgebaseerd contrastief leren met regelgebaseerde negatieven afgeleid van aangepaste geometrische beschrijvingen en retrieval-gebaseerde negatieven geselecteerd op basis van bijschriftgelijkenis. We trainen CLIP met onze sterke negatieve leermethode, genaamd MMCLIP (Multimodal Math CLIP), en trainen vervolgens een LMM voor geometrisch probleemoplossen. Experimenten tonen aan dat ons getrainde model, MMGeoLM, aanzienlijk beter presteert dan andere open-source modellen op drie geometrische redeneerbenchmarks. Zelfs met een grootte van 7B kan het concurreren met krachtige closed-source modellen zoals GPT-4o. We bestuderen verder de impact van verschillende methoden voor het construeren van negatieve voorbeelden en het aantal negatieve voorbeelden op de geometrische redeneerprestaties van LMM, wat vruchtbare conclusies oplevert. De code en dataset zijn beschikbaar op https://github.com/THU-KEG/MMGeoLM.
English
Benefiting from contrastively trained visual encoders on large-scale natural
scene images, Large Multimodal Models (LMMs) have achieved remarkable
performance across various visual perception tasks. However, the inherent
limitations of contrastive learning upon summarized descriptions fundamentally
restrict the capabilities of models in meticulous reasoning, particularly in
crucial scenarios of geometric problem-solving. To enhance geometric
understanding, we propose a novel hard negative contrastive learning framework
for the vision encoder, which combines image-based contrastive learning using
generation-based hard negatives created by perturbing diagram generation code,
and text-based contrastive learning using rule-based negatives derived from
modified geometric descriptions and retrieval-based negatives selected based on
caption similarity. We train CLIP using our strong negative learning method,
namely MMCLIP (Multimodal Math CLIP), and subsequently train an LMM for
geometric problem-solving. Experiments show that our trained model, MMGeoLM,
significantly outperforms other open-source models on three geometric reasoning
benchmarks. Even with a size of 7B, it can rival powerful closed-source models
like GPT-4o. We further study the impact of different negative sample
construction methods and the number of negative samples on the geometric
reasoning performance of LMM, yielding fruitful conclusions. The code and
dataset are available at https://github.com/THU-KEG/MMGeoLM.