MoAI : Mélange de toutes les intelligences pour les grands modèles de langage et de vision
MoAI: Mixture of All Intelligence for Large Language and Vision Models
March 12, 2024
Auteurs: Byung-Kwan Lee, Beomchan Park, Chae Won Kim, Yong Man Ro
cs.AI
Résumé
L'essor des grands modèles de langage (LLMs) et du réglage par instructions a conduit à la tendance actuelle des grands modèles de langage et de vision réglés par instructions (LLVMs). Cette tendance implique soit la curation minutieuse de nombreux ensembles de données de réglage par instructions adaptés à des objectifs spécifiques, soit l'agrandissement des LLVMs pour gérer de vastes quantités de données de langage visuel (VL). Cependant, les LLVMs actuels ont négligé la compréhension détaillée et complète des scènes du monde réel disponible à partir de modèles spécialisés de vision par ordinateur (CV) dans des tâches de perception visuelle telles que la segmentation, la détection, la génération de graphes de scènes (SGG) et la reconnaissance optique de caractères (OCR). Au lieu de cela, les LLVMs existants reposent principalement sur la grande capacité et les capacités émergentes de leurs backbones LLM. Par conséquent, nous présentons un nouveau LLVM, Mixture of All Intelligence (MoAI), qui exploite les informations visuelles auxiliaires obtenues à partir des sorties de modèles externes de segmentation, détection, SGG et OCR. MoAI fonctionne grâce à deux nouveaux modules introduits : MoAI-Compressor et MoAI-Mixer. Après avoir verbalisé les sorties des modèles CV externes, le MoAI-Compressor les aligne et les condense pour utiliser efficacement les informations visuelles auxiliaires pertinentes pour les tâches VL. MoAI-Mixer mélange ensuite trois types d'intelligence : (1) les caractéristiques visuelles, (2) les caractéristiques auxiliaires des modèles CV externes, et (3) les caractéristiques linguistiques en utilisant le concept de Mixture of Experts. Grâce à cette intégration, MoAI surpasse significativement les LLVMs open-source et propriétaires dans de nombreuses tâches VL en zero-shot, en particulier celles liées à la compréhension des scènes du monde réel telles que l'existence d'objets, leurs positions, leurs relations et l'OCR, sans agrandir la taille du modèle ou curer des ensembles de données supplémentaires de réglage par instructions visuelles.
English
The rise of large language models (LLMs) and instruction tuning has led to
the current trend of instruction-tuned large language and vision models
(LLVMs). This trend involves either meticulously curating numerous instruction
tuning datasets tailored to specific objectives or enlarging LLVMs to manage
vast amounts of vision language (VL) data. However, current LLVMs have
disregarded the detailed and comprehensive real-world scene understanding
available from specialized computer vision (CV) models in visual perception
tasks such as segmentation, detection, scene graph generation (SGG), and
optical character recognition (OCR). Instead, the existing LLVMs rely mainly on
the large capacity and emergent capabilities of their LLM backbones. Therefore,
we present a new LLVM, Mixture of All Intelligence (MoAI), which leverages
auxiliary visual information obtained from the outputs of external
segmentation, detection, SGG, and OCR models. MoAI operates through two newly
introduced modules: MoAI-Compressor and MoAI-Mixer. After verbalizing the
outputs of the external CV models, the MoAI-Compressor aligns and condenses
them to efficiently use relevant auxiliary visual information for VL tasks.
MoAI-Mixer then blends three types of intelligence (1) visual features, (2)
auxiliary features from the external CV models, and (3) language features by
utilizing the concept of Mixture of Experts. Through this integration, MoAI
significantly outperforms both open-source and closed-source LLVMs in numerous
zero-shot VL tasks, particularly those related to real-world scene
understanding such as object existence, positions, relations, and OCR without
enlarging the model size or curating extra visual instruction tuning datasets.Summary
AI-Generated Summary