MoAI : Mélange de toutes les intelligences pour les grands modèles de langage et de visionMoAI: Mixture of All Intelligence for Large Language and Vision Models
L'essor des grands modèles de langage (LLMs) et du réglage par instructions a conduit à la tendance actuelle des grands modèles de langage et de vision réglés par instructions (LLVMs). Cette tendance implique soit la curation minutieuse de nombreux ensembles de données de réglage par instructions adaptés à des objectifs spécifiques, soit l'agrandissement des LLVMs pour gérer de vastes quantités de données de langage visuel (VL). Cependant, les LLVMs actuels ont négligé la compréhension détaillée et complète des scènes du monde réel disponible à partir de modèles spécialisés de vision par ordinateur (CV) dans des tâches de perception visuelle telles que la segmentation, la détection, la génération de graphes de scènes (SGG) et la reconnaissance optique de caractères (OCR). Au lieu de cela, les LLVMs existants reposent principalement sur la grande capacité et les capacités émergentes de leurs backbones LLM. Par conséquent, nous présentons un nouveau LLVM, Mixture of All Intelligence (MoAI), qui exploite les informations visuelles auxiliaires obtenues à partir des sorties de modèles externes de segmentation, détection, SGG et OCR. MoAI fonctionne grâce à deux nouveaux modules introduits : MoAI-Compressor et MoAI-Mixer. Après avoir verbalisé les sorties des modèles CV externes, le MoAI-Compressor les aligne et les condense pour utiliser efficacement les informations visuelles auxiliaires pertinentes pour les tâches VL. MoAI-Mixer mélange ensuite trois types d'intelligence : (1) les caractéristiques visuelles, (2) les caractéristiques auxiliaires des modèles CV externes, et (3) les caractéristiques linguistiques en utilisant le concept de Mixture of Experts. Grâce à cette intégration, MoAI surpasse significativement les LLVMs open-source et propriétaires dans de nombreuses tâches VL en zero-shot, en particulier celles liées à la compréhension des scènes du monde réel telles que l'existence d'objets, leurs positions, leurs relations et l'OCR, sans agrandir la taille du modèle ou curer des ensembles de données supplémentaires de réglage par instructions visuelles.