Apprendimento Contrastivo con Hard Negative per la Comprensione Geometrica Fine-Grana nei Modelli Multimodali di Grandi Dimensioni

Abstract

Traendo vantaggio da encoder visivi addestrati in modo contrastivo su immagini su larga scala di scene naturali, i Large Multimodal Models (LMM) hanno ottenuto prestazioni notevoli in vari compiti di percezione visiva. Tuttavia, le limitazioni intrinseche dell'apprendimento contrastivo basato su descrizioni riassuntive limitano fondamentalmente le capacità dei modelli nel ragionamento meticoloso, in particolare negli scenari cruciali di risoluzione di problemi geometrici. Per migliorare la comprensione geometrica, proponiamo un nuovo framework di apprendimento contrastivo con negativi difficili per l'encoder visivo, che combina l'apprendimento contrastivo basato su immagini utilizzando negativi difficili generati perturbando il codice di generazione di diagrammi, e l'apprendimento contrastivo basato su testo utilizzando negativi basati su regole derivati da descrizioni geometriche modificate e negativi selezionati in base alla similarità delle didascalie. Addestriamo CLIP utilizzando il nostro metodo di apprendimento con negativi forti, denominato MMCLIP (Multimodal Math CLIP), e successivamente addestriamo un LMM per la risoluzione di problemi geometrici. Gli esperimenti dimostrano che il nostro modello addestrato, MMGeoLM, supera significativamente altri modelli open-source su tre benchmark di ragionamento geometrico. Anche con una dimensione di 7B, può rivaleggiare con potenti modelli closed-source come GPT-4o. Studiamo ulteriormente l'impatto di diversi metodi di costruzione dei campioni negativi e del numero di campioni negativi sulle prestazioni di ragionamento geometrico degli LMM, ottenendo conclusioni fruttuose. Il codice e il dataset sono disponibili all'indirizzo https://github.com/THU-KEG/MMGeoLM.

English

Benefiting from contrastively trained visual encoders on large-scale natural scene images, Large Multimodal Models (LMMs) have achieved remarkable performance across various visual perception tasks. However, the inherent limitations of contrastive learning upon summarized descriptions fundamentally restrict the capabilities of models in meticulous reasoning, particularly in crucial scenarios of geometric problem-solving. To enhance geometric understanding, we propose a novel hard negative contrastive learning framework for the vision encoder, which combines image-based contrastive learning using generation-based hard negatives created by perturbing diagram generation code, and text-based contrastive learning using rule-based negatives derived from modified geometric descriptions and retrieval-based negatives selected based on caption similarity. We train CLIP using our strong negative learning method, namely MMCLIP (Multimodal Math CLIP), and subsequently train an LMM for geometric problem-solving. Experiments show that our trained model, MMGeoLM, significantly outperforms other open-source models on three geometric reasoning benchmarks. Even with a size of 7B, it can rival powerful closed-source models like GPT-4o. We further study the impact of different negative sample construction methods and the number of negative samples on the geometric reasoning performance of LMM, yielding fruitful conclusions. The code and dataset are available at https://github.com/THU-KEG/MMGeoLM.

Apprendimento Contrastivo con Hard Negative per la Comprensione Geometrica Fine-Grana nei Modelli Multimodali di Grandi Dimensioni

Hard Negative Contrastive Learning for Fine-Grained Geometric Understanding in Large Multimodal Models

Abstract

Support