Apprendimento Contrastivo con Hard Negative per la Comprensione Geometrica Fine-Grana nei Modelli Multimodali di Grandi Dimensioni
Hard Negative Contrastive Learning for Fine-Grained Geometric Understanding in Large Multimodal Models
May 26, 2025
Autori: Kai Sun, Yushi Bai, Zhen Yang, Jiajie Zhang, Ji Qi, Lei Hou, Juanzi Li
cs.AI
Abstract
Traendo vantaggio da encoder visivi addestrati in modo contrastivo su immagini su larga scala di scene naturali, i Large Multimodal Models (LMM) hanno ottenuto prestazioni notevoli in vari compiti di percezione visiva. Tuttavia, le limitazioni intrinseche dell'apprendimento contrastivo basato su descrizioni riassuntive limitano fondamentalmente le capacità dei modelli nel ragionamento meticoloso, in particolare negli scenari cruciali di risoluzione di problemi geometrici. Per migliorare la comprensione geometrica, proponiamo un nuovo framework di apprendimento contrastivo con negativi difficili per l'encoder visivo, che combina l'apprendimento contrastivo basato su immagini utilizzando negativi difficili generati perturbando il codice di generazione di diagrammi, e l'apprendimento contrastivo basato su testo utilizzando negativi basati su regole derivati da descrizioni geometriche modificate e negativi selezionati in base alla similarità delle didascalie. Addestriamo CLIP utilizzando il nostro metodo di apprendimento con negativi forti, denominato MMCLIP (Multimodal Math CLIP), e successivamente addestriamo un LMM per la risoluzione di problemi geometrici. Gli esperimenti dimostrano che il nostro modello addestrato, MMGeoLM, supera significativamente altri modelli open-source su tre benchmark di ragionamento geometrico. Anche con una dimensione di 7B, può rivaleggiare con potenti modelli closed-source come GPT-4o. Studiamo ulteriormente l'impatto di diversi metodi di costruzione dei campioni negativi e del numero di campioni negativi sulle prestazioni di ragionamento geometrico degli LMM, ottenendo conclusioni fruttuose. Il codice e il dataset sono disponibili all'indirizzo https://github.com/THU-KEG/MMGeoLM.
English
Benefiting from contrastively trained visual encoders on large-scale natural
scene images, Large Multimodal Models (LMMs) have achieved remarkable
performance across various visual perception tasks. However, the inherent
limitations of contrastive learning upon summarized descriptions fundamentally
restrict the capabilities of models in meticulous reasoning, particularly in
crucial scenarios of geometric problem-solving. To enhance geometric
understanding, we propose a novel hard negative contrastive learning framework
for the vision encoder, which combines image-based contrastive learning using
generation-based hard negatives created by perturbing diagram generation code,
and text-based contrastive learning using rule-based negatives derived from
modified geometric descriptions and retrieval-based negatives selected based on
caption similarity. We train CLIP using our strong negative learning method,
namely MMCLIP (Multimodal Math CLIP), and subsequently train an LMM for
geometric problem-solving. Experiments show that our trained model, MMGeoLM,
significantly outperforms other open-source models on three geometric reasoning
benchmarks. Even with a size of 7B, it can rival powerful closed-source models
like GPT-4o. We further study the impact of different negative sample
construction methods and the number of negative samples on the geometric
reasoning performance of LMM, yielding fruitful conclusions. The code and
dataset are available at https://github.com/THU-KEG/MMGeoLM.