ChatPaper.aiChatPaper

Контрастное обучение с использованием сложных негативных примеров для детального геометрического понимания в крупных мультимодальных моделях

Hard Negative Contrastive Learning for Fine-Grained Geometric Understanding in Large Multimodal Models

May 26, 2025
Авторы: Kai Sun, Yushi Bai, Zhen Yang, Jiajie Zhang, Ji Qi, Lei Hou, Juanzi Li
cs.AI

Аннотация

Благодаря использованию визуальных кодировщиков, обученных контрастивным методом на крупномасштабных изображениях естественных сцен, крупные мультимодальные модели (LMM) достигли выдающихся результатов в различных задачах визуального восприятия. Однако присущие ограничения контрастивного обучения на основе обобщенных описаний фундаментально ограничивают способности моделей к тщательному рассуждению, особенно в критически важных сценариях решения геометрических задач. Для улучшения понимания геометрии мы предлагаем новый фреймворк контрастивного обучения с использованием сложных негативных примеров для визуального кодировщика, который сочетает в себе контрастивное обучение на основе изображений с использованием сложных негативов, созданных путем модификации кода генерации диаграмм, и контрастивное обучение на основе текста с использованием правил для создания негативов на основе измененных геометрических описаний, а также негативов, отобранных на основе сходства заголовков. Мы обучаем модель CLIP с использованием нашего метода сильного негативного обучения, названного MMCLIP (Multimodal Math CLIP), а затем обучаем LMM для решения геометрических задач. Эксперименты показывают, что наша обученная модель, MMGeoLM, значительно превосходит другие модели с открытым исходным кодом на трех тестовых наборах для геометрического рассуждения. Даже при размере 7B она может конкурировать с мощными закрытыми моделями, такими как GPT-4o. Мы также изучаем влияние различных методов построения негативных примеров и количества негативных примеров на производительность LMM в геометрическом рассуждении, получая полезные выводы. Код и набор данных доступны по адресу https://github.com/THU-KEG/MMGeoLM.
English
Benefiting from contrastively trained visual encoders on large-scale natural scene images, Large Multimodal Models (LMMs) have achieved remarkable performance across various visual perception tasks. However, the inherent limitations of contrastive learning upon summarized descriptions fundamentally restrict the capabilities of models in meticulous reasoning, particularly in crucial scenarios of geometric problem-solving. To enhance geometric understanding, we propose a novel hard negative contrastive learning framework for the vision encoder, which combines image-based contrastive learning using generation-based hard negatives created by perturbing diagram generation code, and text-based contrastive learning using rule-based negatives derived from modified geometric descriptions and retrieval-based negatives selected based on caption similarity. We train CLIP using our strong negative learning method, namely MMCLIP (Multimodal Math CLIP), and subsequently train an LMM for geometric problem-solving. Experiments show that our trained model, MMGeoLM, significantly outperforms other open-source models on three geometric reasoning benchmarks. Even with a size of 7B, it can rival powerful closed-source models like GPT-4o. We further study the impact of different negative sample construction methods and the number of negative samples on the geometric reasoning performance of LMM, yielding fruitful conclusions. The code and dataset are available at https://github.com/THU-KEG/MMGeoLM.

Summary

AI-Generated Summary

PDF111May 27, 2025