Águila: Explorando el Espacio de Diseño para Modelos de Lenguaje Multimodales con Mezcla de CodificadoresEagle: Exploring The Design Space for Multimodal LLMs with Mixture of
Encoders
La capacidad de interpretar con precisión información visual compleja es un tema crucial en los modelos de lenguaje multimodales de gran escala (MLLMs). Investigaciones recientes indican que una percepción visual mejorada reduce significativamente las alucinaciones y mejora el rendimiento en tareas sensibles a la resolución, como el reconocimiento óptico de caracteres y el análisis de documentos. Varios MLLMs recientes logran este objetivo utilizando una combinación de codificadores visuales. A pesar de su éxito, existe una falta de comparaciones sistemáticas y estudios de ablación detallados que aborden aspectos críticos, como la selección de expertos y la integración de múltiples expertos visuales. Este estudio proporciona una exploración exhaustiva del espacio de diseño para MLLMs utilizando una combinación de codificadores visuales y resoluciones. Nuestros hallazgos revelan varios principios subyacentes comunes a diversas estrategias existentes, lo que conduce a un enfoque de diseño simplificado pero efectivo. Descubrimos que simplemente concatenar tokens visuales de un conjunto de codificadores visuales complementarios es tan efectivo como arquitecturas o estrategias de mezcla más complejas. Además, introducimos Pre-Alignment para cerrar la brecha entre los codificadores centrados en la visión y los tokens de lenguaje, mejorando la coherencia del modelo. La familia resultante de MLLMs, Eagle, supera a otros modelos líderes de código abierto en importantes referencias de MLLM. Modelos y código: https://github.com/NVlabs/Eagle