Euclid: Potencializando Multimodal LLMs com Descrições Visuais Sintéticas de Alta Fidelidade
Euclid: Supercharging Multimodal LLMs with Synthetic High-Fidelity Visual Descriptions
December 11, 2024
Autores: Jiarui Zhang, Ollie Liu, Tianyu Yu, Jinyi Hu, Willie Neiswanger
cs.AI
Resumo
Os modelos de linguagem multimodais de grande escala (MLLMs) avançaram rapidamente nos últimos anos, mas continuam a enfrentar dificuldades com a percepção visual de baixo nível (LLVP) - especialmente a capacidade de descrever com precisão os detalhes geométricos de uma imagem. Essa capacidade é crucial para aplicações em áreas como robótica, análise de imagens médicas e manufatura. Neste artigo, primeiro apresentamos o Geoperception, um benchmark projetado para avaliar a capacidade de um MLLM transcrever com precisão informações geométricas 2D de uma imagem. Usando este benchmark, demonstramos as limitações dos principais MLLMs e, em seguida, realizamos um estudo empírico abrangente para explorar estratégias para melhorar seu desempenho em tarefas geométricas. Nossas descobertas destacam os benefícios de certas arquiteturas de modelo, técnicas de treinamento e estratégias de dados, incluindo o uso de dados sintéticos de alta fidelidade e treinamento em múltiplas etapas com um currículo de dados. Notavelmente, descobrimos que um currículo de dados permite que os modelos aprendam tarefas desafiadoras de compreensão de geometria que eles não conseguem aprender do zero. Aproveitando essas percepções, desenvolvemos o Euclides, uma família de modelos otimizados especificamente para uma forte percepção geométrica de baixo nível. Embora treinado exclusivamente em dados multimodais sintéticos, o Euclides demonstra uma forte capacidade de generalização para formas geométricas novas. Por exemplo, o Euclides supera o melhor modelo de código fechado, Gemini-1.5-Pro, em até 58,56% em determinadas tarefas do benchmark Geoperception e 10,65% em média em todas as tarefas.
English
Multimodal large language models (MLLMs) have made rapid progress in recent
years, yet continue to struggle with low-level visual perception (LLVP) --
particularly the ability to accurately describe the geometric details of an
image. This capability is crucial for applications in areas such as robotics,
medical image analysis, and manufacturing. In this paper, we first introduce
Geoperception, a benchmark designed to evaluate an MLLM's ability to accurately
transcribe 2D geometric information from an image. Using this benchmark, we
demonstrate the limitations of leading MLLMs, and then conduct a comprehensive
empirical study to explore strategies for improving their performance on
geometric tasks. Our findings highlight the benefits of certain model
architectures, training techniques, and data strategies, including the use of
high-fidelity synthetic data and multi-stage training with a data curriculum.
Notably, we find that a data curriculum enables models to learn challenging
geometry understanding tasks which they fail to learn from scratch. Leveraging
these insights, we develop Euclid, a family of models specifically optimized
for strong low-level geometric perception. Although purely trained on synthetic
multimodal data, Euclid shows strong generalization ability to novel geometry
shapes. For instance, Euclid outperforms the best closed-source model,
Gemini-1.5-Pro, by up to 58.56% on certain Geoperception benchmark tasks and
10.65% on average across all tasks.Summary
AI-Generated Summary