Euclid: Potencializando Multimodal LLMs com Descrições Visuais Sintéticas de Alta Fidelidade

Resumo

Os modelos de linguagem multimodais de grande escala (MLLMs) avançaram rapidamente nos últimos anos, mas continuam a enfrentar dificuldades com a percepção visual de baixo nível (LLVP) - especialmente a capacidade de descrever com precisão os detalhes geométricos de uma imagem. Essa capacidade é crucial para aplicações em áreas como robótica, análise de imagens médicas e manufatura. Neste artigo, primeiro apresentamos o Geoperception, um benchmark projetado para avaliar a capacidade de um MLLM transcrever com precisão informações geométricas 2D de uma imagem. Usando este benchmark, demonstramos as limitações dos principais MLLMs e, em seguida, realizamos um estudo empírico abrangente para explorar estratégias para melhorar seu desempenho em tarefas geométricas. Nossas descobertas destacam os benefícios de certas arquiteturas de modelo, técnicas de treinamento e estratégias de dados, incluindo o uso de dados sintéticos de alta fidelidade e treinamento em múltiplas etapas com um currículo de dados. Notavelmente, descobrimos que um currículo de dados permite que os modelos aprendam tarefas desafiadoras de compreensão de geometria que eles não conseguem aprender do zero. Aproveitando essas percepções, desenvolvemos o Euclides, uma família de modelos otimizados especificamente para uma forte percepção geométrica de baixo nível. Embora treinado exclusivamente em dados multimodais sintéticos, o Euclides demonstra uma forte capacidade de generalização para formas geométricas novas. Por exemplo, o Euclides supera o melhor modelo de código fechado, Gemini-1.5-Pro, em até 58,56% em determinadas tarefas do benchmark Geoperception e 10,65% em média em todas as tarefas.

English

Multimodal large language models (MLLMs) have made rapid progress in recent years, yet continue to struggle with low-level visual perception (LLVP) -- particularly the ability to accurately describe the geometric details of an image. This capability is crucial for applications in areas such as robotics, medical image analysis, and manufacturing. In this paper, we first introduce Geoperception, a benchmark designed to evaluate an MLLM's ability to accurately transcribe 2D geometric information from an image. Using this benchmark, we demonstrate the limitations of leading MLLMs, and then conduct a comprehensive empirical study to explore strategies for improving their performance on geometric tasks. Our findings highlight the benefits of certain model architectures, training techniques, and data strategies, including the use of high-fidelity synthetic data and multi-stage training with a data curriculum. Notably, we find that a data curriculum enables models to learn challenging geometry understanding tasks which they fail to learn from scratch. Leveraging these insights, we develop Euclid, a family of models specifically optimized for strong low-level geometric perception. Although purely trained on synthetic multimodal data, Euclid shows strong generalization ability to novel geometry shapes. For instance, Euclid outperforms the best closed-source model, Gemini-1.5-Pro, by up to 58.56% on certain Geoperception benchmark tasks and 10.65% on average across all tasks.

Euclid: Potencializando Multimodal LLMs com Descrições Visuais Sintéticas de Alta Fidelidade

Euclid: Supercharging Multimodal LLMs with Synthetic High-Fidelity Visual Descriptions

Resumo

Support