MoAI: Mezcla de Todas las Inteligencias para Modelos de Lenguaje y Visión a Gran EscalaMoAI: Mixture of All Intelligence for Large Language and Vision Models
El auge de los modelos de lenguaje grandes (LLMs) y el ajuste por instrucciones ha dado lugar a la tendencia actual de modelos grandes de lenguaje y visión ajustados por instrucciones (LLVMs). Esta tendencia implica ya sea la meticulosa curación de numerosos conjuntos de datos de ajuste por instrucciones adaptados a objetivos específicos o la ampliación de los LLVMs para manejar grandes cantidades de datos de lenguaje visual (VL). Sin embargo, los LLVMs actuales han ignorado la comprensión detallada y exhaustiva del mundo real disponible a partir de modelos especializados de visión por computadora (CV) en tareas de percepción visual como segmentación, detección, generación de grafos de escenas (SGG) y reconocimiento óptico de caracteres (OCR). En su lugar, los LLVMs existentes dependen principalmente de la gran capacidad y las capacidades emergentes de sus backbones de LLM. Por lo tanto, presentamos un nuevo LLVM, Mezcla de Toda la Inteligencia (MoAI), que aprovecha la información visual auxiliar obtenida de las salidas de modelos externos de segmentación, detección, SGG y OCR. MoAI opera a través de dos módulos recién introducidos: MoAI-Compressor y MoAI-Mixer. Después de verbalizar las salidas de los modelos externos de CV, el MoAI-Compressor las alinea y condensa para utilizar de manera eficiente la información visual auxiliar relevante en tareas de VL. Luego, el MoAI-Mixer combina tres tipos de inteligencia: (1) características visuales, (2) características auxiliares de los modelos externos de CV y (3) características de lenguaje, utilizando el concepto de Mezcla de Expertos. A través de esta integración, MoAI supera significativamente tanto a los LLVMs de código abierto como a los de código cerrado en numerosas tareas de VL de cero disparos, particularmente aquellas relacionadas con la comprensión de escenas del mundo real, como la existencia de objetos, posiciones, relaciones y OCR, sin necesidad de ampliar el tamaño del modelo o curar conjuntos de datos adicionales de ajuste por instrucciones visuales.