ChatPaper.aiChatPaper

Aprendizado Contrastivo com Negativos Difíceis para Compreensão Geométrica de Alto Detalhe em Modelos Multimodais de Grande Escala

Hard Negative Contrastive Learning for Fine-Grained Geometric Understanding in Large Multimodal Models

May 26, 2025
Autores: Kai Sun, Yushi Bai, Zhen Yang, Jiajie Zhang, Ji Qi, Lei Hou, Juanzi Li
cs.AI

Resumo

Beneficiando-se de codificadores visuais treinados de forma contrastiva em imagens de cenas naturais em larga escala, os Modelos Multimodais de Grande Escala (LMMs) alcançaram desempenho notável em diversas tarefas de percepção visual. No entanto, as limitações inerentes ao aprendizado contrastivo baseado em descrições resumidas restringem fundamentalmente as capacidades dos modelos em raciocínios meticulosos, especialmente em cenários cruciais de resolução de problemas geométricos. Para aprimorar a compreensão geométrica, propomos uma nova estrutura de aprendizado contrastivo com negativos difíceis para o codificador visual, que combina o aprendizado contrastivo baseado em imagens utilizando negativos difíceis gerados por perturbações no código de geração de diagramas, e o aprendizado contrastivo baseado em texto utilizando negativos baseados em regras derivados de descrições geométricas modificadas e negativos baseados em recuperação selecionados com base na similaridade de legendas. Treinamos o CLIP utilizando nosso método robusto de aprendizado com negativos, denominado MMCLIP (Multimodal Math CLIP), e subsequentemente treinamos um LMM para resolução de problemas geométricos. Experimentos mostram que nosso modelo treinado, MMGeoLM, supera significativamente outros modelos de código aberto em três benchmarks de raciocínio geométrico. Mesmo com um tamanho de 7B, ele pode rivalizar com modelos poderosos de código fechado como o GPT-4o. Estudamos ainda o impacto de diferentes métodos de construção de amostras negativas e o número de amostras negativas no desempenho de raciocínio geométrico do LMM, obtendo conclusões frutíferas. O código e o conjunto de dados estão disponíveis em https://github.com/THU-KEG/MMGeoLM.
English
Benefiting from contrastively trained visual encoders on large-scale natural scene images, Large Multimodal Models (LMMs) have achieved remarkable performance across various visual perception tasks. However, the inherent limitations of contrastive learning upon summarized descriptions fundamentally restrict the capabilities of models in meticulous reasoning, particularly in crucial scenarios of geometric problem-solving. To enhance geometric understanding, we propose a novel hard negative contrastive learning framework for the vision encoder, which combines image-based contrastive learning using generation-based hard negatives created by perturbing diagram generation code, and text-based contrastive learning using rule-based negatives derived from modified geometric descriptions and retrieval-based negatives selected based on caption similarity. We train CLIP using our strong negative learning method, namely MMCLIP (Multimodal Math CLIP), and subsequently train an LMM for geometric problem-solving. Experiments show that our trained model, MMGeoLM, significantly outperforms other open-source models on three geometric reasoning benchmarks. Even with a size of 7B, it can rival powerful closed-source models like GPT-4o. We further study the impact of different negative sample construction methods and the number of negative samples on the geometric reasoning performance of LMM, yielding fruitful conclusions. The code and dataset are available at https://github.com/THU-KEG/MMGeoLM.
PDF111December 16, 2025