Eagle: Explorando o Espaço de Design para Modelos de Linguagem Multimodais com Mistura de CodificadoresEagle: Exploring The Design Space for Multimodal LLMs with Mixture of
Encoders
A capacidade de interpretar com precisão informações visuais complexas é um tópico crucial dos modelos de linguagem multimodais de grande escala (MLLMs). Trabalhos recentes indicam que uma percepção visual aprimorada reduz significativamente alucinações e melhora o desempenho em tarefas sensíveis à resolução, como reconhecimento óptico de caracteres e análise de documentos. Vários MLLMs recentes alcançam esse objetivo usando uma combinação de codificadores visuais. Apesar de seu sucesso, há uma falta de comparações sistemáticas e estudos de ablação detalhados que abordem aspectos críticos, como seleção de especialistas e integração de múltiplos especialistas em visão. Este estudo fornece uma exploração extensiva do espaço de design para MLLMs usando uma mistura de codificadores visuais e resoluções. Nossas descobertas revelam vários princípios subjacentes comuns a várias estratégias existentes, levando a uma abordagem de design simplificada, porém eficaz. Descobrimos que simplesmente concatenar tokens visuais de um conjunto de codificadores visuais complementares é tão eficaz quanto arquiteturas ou estratégias de mistura mais complexas. Além disso, introduzimos o Pré-Alinhamento para preencher a lacuna entre codificadores focados em visão e tokens de linguagem, aprimorando a coerência do modelo. A família resultante de MLLMs, Eagle, supera outros modelos de código aberto líderes em importantes benchmarks de MLLM. Modelos e código: https://github.com/NVlabs/Eagle