MoAI: Mezcla de Todas las Inteligencias para Modelos de Lenguaje y Visión a Gran Escala
MoAI: Mixture of All Intelligence for Large Language and Vision Models
March 12, 2024
Autores: Byung-Kwan Lee, Beomchan Park, Chae Won Kim, Yong Man Ro
cs.AI
Resumen
El auge de los modelos de lenguaje grandes (LLMs) y el ajuste por instrucciones ha dado lugar a la tendencia actual de modelos grandes de lenguaje y visión ajustados por instrucciones (LLVMs). Esta tendencia implica ya sea la meticulosa curación de numerosos conjuntos de datos de ajuste por instrucciones adaptados a objetivos específicos o la ampliación de los LLVMs para manejar grandes cantidades de datos de lenguaje visual (VL). Sin embargo, los LLVMs actuales han ignorado la comprensión detallada y exhaustiva del mundo real disponible a partir de modelos especializados de visión por computadora (CV) en tareas de percepción visual como segmentación, detección, generación de grafos de escenas (SGG) y reconocimiento óptico de caracteres (OCR). En su lugar, los LLVMs existentes dependen principalmente de la gran capacidad y las capacidades emergentes de sus backbones de LLM. Por lo tanto, presentamos un nuevo LLVM, Mezcla de Toda la Inteligencia (MoAI), que aprovecha la información visual auxiliar obtenida de las salidas de modelos externos de segmentación, detección, SGG y OCR. MoAI opera a través de dos módulos recién introducidos: MoAI-Compressor y MoAI-Mixer. Después de verbalizar las salidas de los modelos externos de CV, el MoAI-Compressor las alinea y condensa para utilizar de manera eficiente la información visual auxiliar relevante en tareas de VL. Luego, el MoAI-Mixer combina tres tipos de inteligencia: (1) características visuales, (2) características auxiliares de los modelos externos de CV y (3) características de lenguaje, utilizando el concepto de Mezcla de Expertos. A través de esta integración, MoAI supera significativamente tanto a los LLVMs de código abierto como a los de código cerrado en numerosas tareas de VL de cero disparos, particularmente aquellas relacionadas con la comprensión de escenas del mundo real, como la existencia de objetos, posiciones, relaciones y OCR, sin necesidad de ampliar el tamaño del modelo o curar conjuntos de datos adicionales de ajuste por instrucciones visuales.
English
The rise of large language models (LLMs) and instruction tuning has led to
the current trend of instruction-tuned large language and vision models
(LLVMs). This trend involves either meticulously curating numerous instruction
tuning datasets tailored to specific objectives or enlarging LLVMs to manage
vast amounts of vision language (VL) data. However, current LLVMs have
disregarded the detailed and comprehensive real-world scene understanding
available from specialized computer vision (CV) models in visual perception
tasks such as segmentation, detection, scene graph generation (SGG), and
optical character recognition (OCR). Instead, the existing LLVMs rely mainly on
the large capacity and emergent capabilities of their LLM backbones. Therefore,
we present a new LLVM, Mixture of All Intelligence (MoAI), which leverages
auxiliary visual information obtained from the outputs of external
segmentation, detection, SGG, and OCR models. MoAI operates through two newly
introduced modules: MoAI-Compressor and MoAI-Mixer. After verbalizing the
outputs of the external CV models, the MoAI-Compressor aligns and condenses
them to efficiently use relevant auxiliary visual information for VL tasks.
MoAI-Mixer then blends three types of intelligence (1) visual features, (2)
auxiliary features from the external CV models, and (3) language features by
utilizing the concept of Mixture of Experts. Through this integration, MoAI
significantly outperforms both open-source and closed-source LLVMs in numerous
zero-shot VL tasks, particularly those related to real-world scene
understanding such as object existence, positions, relations, and OCR without
enlarging the model size or curating extra visual instruction tuning datasets.Summary
AI-Generated Summary