大規模マルチモーダルモデルにおける細粒度幾何学的理解のためのハードネガティブコントラスティブラーニング
Hard Negative Contrastive Learning for Fine-Grained Geometric Understanding in Large Multimodal Models
May 26, 2025
著者: Kai Sun, Yushi Bai, Zhen Yang, Jiajie Zhang, Ji Qi, Lei Hou, Juanzi Li
cs.AI
要旨
大規模な自然風景画像に対してコントラスティブ学習で訓練された視覚エンコーダを活用することで、大規模マルチモーダルモデル(LMM)は様々な視覚知覚タスクで顕著な性能を達成してきました。しかし、要約された記述に基づくコントラスティブ学習の本質的な限界は、特に幾何学的問題解決という重要なシナリオにおいて、モデルの緻密な推論能力を根本的に制約しています。幾何学的理解を強化するため、我々は視覚エンコーダに対して新しいハードネガティブコントラスティブ学習フレームワークを提案します。これは、図形生成コードを摂動させて生成されたハードネガティブを用いた画像ベースのコントラスティブ学習と、修正された幾何学的記述から導出されたルールベースのネガティブ、およびキャプションの類似度に基づいて選択された検索ベースのネガティブを用いたテキストベースのコントラスティブ学習を組み合わせたものです。我々はこの強力なネガティブ学習手法、すなわちMMCLIP(Multimodal Math CLIP)を用いてCLIPを訓練し、その後、幾何学的問題解決のためのLMMを訓練します。実験結果は、我々の訓練済みモデルMMGeoLMが、3つの幾何学的推論ベンチマークにおいて他のオープンソースモデルを大幅に上回ることを示しています。7Bのサイズであっても、GPT-4oのような強力なクローズドソースモデルに匹敵する性能を発揮します。さらに、異なるネガティブサンプル構築方法とネガティブサンプルの数がLMMの幾何学的推論性能に与える影響を研究し、有益な結論を得ました。コードとデータセットはhttps://github.com/THU-KEG/MMGeoLMで公開されています。
English
Benefiting from contrastively trained visual encoders on large-scale natural
scene images, Large Multimodal Models (LMMs) have achieved remarkable
performance across various visual perception tasks. However, the inherent
limitations of contrastive learning upon summarized descriptions fundamentally
restrict the capabilities of models in meticulous reasoning, particularly in
crucial scenarios of geometric problem-solving. To enhance geometric
understanding, we propose a novel hard negative contrastive learning framework
for the vision encoder, which combines image-based contrastive learning using
generation-based hard negatives created by perturbing diagram generation code,
and text-based contrastive learning using rule-based negatives derived from
modified geometric descriptions and retrieval-based negatives selected based on
caption similarity. We train CLIP using our strong negative learning method,
namely MMCLIP (Multimodal Math CLIP), and subsequently train an LMM for
geometric problem-solving. Experiments show that our trained model, MMGeoLM,
significantly outperforms other open-source models on three geometric reasoning
benchmarks. Even with a size of 7B, it can rival powerful closed-source models
like GPT-4o. We further study the impact of different negative sample
construction methods and the number of negative samples on the geometric
reasoning performance of LMM, yielding fruitful conclusions. The code and
dataset are available at https://github.com/THU-KEG/MMGeoLM.Summary
AI-Generated Summary