MoAI: Mistura de Todas as Inteligências para Modelos de Linguagem e Visão de Grande Escala
MoAI: Mixture of All Intelligence for Large Language and Vision Models
March 12, 2024
Autores: Byung-Kwan Lee, Beomchan Park, Chae Won Kim, Yong Man Ro
cs.AI
Resumo
O surgimento de grandes modelos de linguagem (LLMs) e o ajuste por instrução levaram à tendência atual de modelos grandes de linguagem e visão ajustados por instrução (LLVMs). Essa tendência envolve ou a curadoria meticulosa de diversos conjuntos de dados de ajuste por instrução adaptados a objetivos específicos ou o aumento dos LLVMs para lidar com grandes quantidades de dados de linguagem visual (VL). No entanto, os LLVMs atuais têm ignorado a compreensão detalhada e abrangente de cenas do mundo real disponível a partir de modelos especializados de visão computacional (CV) em tarefas de percepção visual, como segmentação, detecção, geração de grafos de cena (SGG) e reconhecimento óptico de caracteres (OCR). Em vez disso, os LLVMs existentes dependem principalmente da grande capacidade e das habilidades emergentes de seus backbones de LLM. Portanto, apresentamos um novo LLVM, Mixture of All Intelligence (MoAI), que aproveita informações visuais auxiliares obtidas a partir das saídas de modelos externos de segmentação, detecção, SGG e OCR. O MoAI opera por meio de dois novos módulos introduzidos: MoAI-Compressor e MoAI-Mixer. Após verbalizar as saídas dos modelos externos de CV, o MoAI-Compressor as alinha e condensa para utilizar de forma eficiente as informações visuais auxiliares relevantes para tarefas de VL. O MoAI-Mixer então combina três tipos de inteligência: (1) características visuais, (2) características auxiliares dos modelos externos de CV e (3) características de linguagem, utilizando o conceito de Mixture of Experts. Por meio dessa integração, o MoAI supera significativamente tanto os LLVMs de código aberto quanto os de código fechado em diversas tarefas de VL zero-shot, particularmente aquelas relacionadas à compreensão de cenas do mundo real, como existência de objetos, posições, relações e OCR, sem aumentar o tamanho do modelo ou curar conjuntos de dados adicionais de ajuste por instrução visual.
English
The rise of large language models (LLMs) and instruction tuning has led to
the current trend of instruction-tuned large language and vision models
(LLVMs). This trend involves either meticulously curating numerous instruction
tuning datasets tailored to specific objectives or enlarging LLVMs to manage
vast amounts of vision language (VL) data. However, current LLVMs have
disregarded the detailed and comprehensive real-world scene understanding
available from specialized computer vision (CV) models in visual perception
tasks such as segmentation, detection, scene graph generation (SGG), and
optical character recognition (OCR). Instead, the existing LLVMs rely mainly on
the large capacity and emergent capabilities of their LLM backbones. Therefore,
we present a new LLVM, Mixture of All Intelligence (MoAI), which leverages
auxiliary visual information obtained from the outputs of external
segmentation, detection, SGG, and OCR models. MoAI operates through two newly
introduced modules: MoAI-Compressor and MoAI-Mixer. After verbalizing the
outputs of the external CV models, the MoAI-Compressor aligns and condenses
them to efficiently use relevant auxiliary visual information for VL tasks.
MoAI-Mixer then blends three types of intelligence (1) visual features, (2)
auxiliary features from the external CV models, and (3) language features by
utilizing the concept of Mixture of Experts. Through this integration, MoAI
significantly outperforms both open-source and closed-source LLVMs in numerous
zero-shot VL tasks, particularly those related to real-world scene
understanding such as object existence, positions, relations, and OCR without
enlarging the model size or curating extra visual instruction tuning datasets.