Hartes Negatives Kontrastives Lernen für feinkörniges geometrisches Verständnis in großen multimodalen Modellen
Hard Negative Contrastive Learning for Fine-Grained Geometric Understanding in Large Multimodal Models
May 26, 2025
Autoren: Kai Sun, Yushi Bai, Zhen Yang, Jiajie Zhang, Ji Qi, Lei Hou, Juanzi Li
cs.AI
Zusammenfassung
Durch die Nutzung von kontrastiv trainierten visuellen Encodern auf groß angelegten natürlichen Szenenbildern haben Large Multimodal Models (LMMs) bemerkenswerte Leistungen in verschiedenen visuellen Wahrnehmungsaufgaben erzielt. Die inhärenten Grenzen des kontrastiven Lernens auf der Grundlage von zusammengefassten Beschreibungen schränken jedoch grundlegend die Fähigkeiten der Modelle in Bezug auf sorgfältiges logisches Denken ein, insbesondere in entscheidenden Szenarien der geometrischen Problemlösung. Um das geometrische Verständnis zu verbessern, schlagen wir ein neuartiges Framework für kontrastives Lernen mit harten Negativbeispielen für den visuellen Encoder vor, das bildbasiertes kontrastives Lernen unter Verwendung von generierungsbasierten harten Negativbeispielen, die durch Störung des Diagrammgenerierungscodes erstellt werden, und textbasiertes kontrastives Lernen mit regelbasierten Negativbeispielen, die aus modifizierten geometrischen Beschreibungen abgeleitet werden, sowie retrieval-basierten Negativbeispielen, die auf der Ähnlichkeit von Bildunterschriften ausgewählt werden, kombiniert. Wir trainieren CLIP mit unserer Methode des starken negativen Lernens, genannt MMCLIP (Multimodal Math CLIP), und trainieren anschließend ein LMM für die Lösung geometrischer Probleme. Experimente zeigen, dass unser trainiertes Modell, MMGeoLM, andere Open-Source-Modelle auf drei geometrischen Reasoning-Benchmarks deutlich übertrifft. Selbst mit einer Größe von 7B kann es leistungsstarke Closed-Source-Modelle wie GPT-4o konkurrieren. Wir untersuchen weiterhin die Auswirkungen verschiedener Methoden zur Konstruktion von Negativbeispielen und die Anzahl der Negativbeispiele auf die geometrische Reasoning-Leistung von LMM, was zu fruchtbaren Erkenntnissen führt. Der Code und der Datensatz sind unter https://github.com/THU-KEG/MMGeoLM verfügbar.
English
Benefiting from contrastively trained visual encoders on large-scale natural
scene images, Large Multimodal Models (LMMs) have achieved remarkable
performance across various visual perception tasks. However, the inherent
limitations of contrastive learning upon summarized descriptions fundamentally
restrict the capabilities of models in meticulous reasoning, particularly in
crucial scenarios of geometric problem-solving. To enhance geometric
understanding, we propose a novel hard negative contrastive learning framework
for the vision encoder, which combines image-based contrastive learning using
generation-based hard negatives created by perturbing diagram generation code,
and text-based contrastive learning using rule-based negatives derived from
modified geometric descriptions and retrieval-based negatives selected based on
caption similarity. We train CLIP using our strong negative learning method,
namely MMCLIP (Multimodal Math CLIP), and subsequently train an LMM for
geometric problem-solving. Experiments show that our trained model, MMGeoLM,
significantly outperforms other open-source models on three geometric reasoning
benchmarks. Even with a size of 7B, it can rival powerful closed-source models
like GPT-4o. We further study the impact of different negative sample
construction methods and the number of negative samples on the geometric
reasoning performance of LMM, yielding fruitful conclusions. The code and
dataset are available at https://github.com/THU-KEG/MMGeoLM.Summary
AI-Generated Summary