ChatPaper.aiChatPaper

MoAI: Mengsel van Alle Intelligentie voor Grote Taal- en Visuele Modellen

MoAI: Mixture of All Intelligence for Large Language and Vision Models

March 12, 2024
Auteurs: Byung-Kwan Lee, Beomchan Park, Chae Won Kim, Yong Man Ro
cs.AI

Samenvatting

De opkomst van grote taalmodelen (LLMs) en instructieafstemming heeft geleid tot de huidige trend van instructieafgestemde grote taal- en visiemodellen (LLVMs). Deze trend omvat het zorgvuldig samenstellen van talrijke instructieafstemmingsdatasets die zijn toegesneden op specifieke doelen, of het vergroten van LLVMs om enorme hoeveelheden visuele taal (VL) data te verwerken. Echter, huidige LLVMs hebben de gedetailleerde en uitgebreide real-world scènebegrip genegeerd die beschikbaar is vanuit gespecialiseerde computervisie (CV) modellen in visuele perceptietaken zoals segmentatie, detectie, scènegrafgeneratie (SGG), en optische tekenherkenning (OCR). In plaats daarvan vertrouwen bestaande LLVMs voornamelijk op de grote capaciteit en emergente mogelijkheden van hun LLM-backbones. Daarom presenteren we een nieuw LLVM, Mixture of All Intelligence (MoAI), dat gebruikmaakt van aanvullende visuele informatie verkregen uit de uitvoer van externe segmentatie-, detectie-, SGG- en OCR-modellen. MoAI werkt via twee nieuw geïntroduceerde modules: MoAI-Compressor en MoAI-Mixer. Na het verbaliseren van de uitvoer van de externe CV-modellen, aligneert en comprimeert de MoAI-Compressor deze om efficiënt gebruik te maken van relevante aanvullende visuele informatie voor VL-taken. MoAI-Mixer mengt vervolgens drie soorten intelligentie: (1) visuele kenmerken, (2) aanvullende kenmerken van de externe CV-modellen, en (3) taal kenmerken door gebruik te maken van het concept van Mixture of Experts. Door deze integratie presteert MoAI aanzienlijk beter dan zowel open-source als closed-source LLVMs in talrijke zero-shot VL-taken, met name die gerelateerd aan real-world scènebegrip zoals objectaanwezigheid, posities, relaties, en OCR, zonder het model te vergroten of extra visuele instructieafstemmingsdatasets samen te stellen.
English
The rise of large language models (LLMs) and instruction tuning has led to the current trend of instruction-tuned large language and vision models (LLVMs). This trend involves either meticulously curating numerous instruction tuning datasets tailored to specific objectives or enlarging LLVMs to manage vast amounts of vision language (VL) data. However, current LLVMs have disregarded the detailed and comprehensive real-world scene understanding available from specialized computer vision (CV) models in visual perception tasks such as segmentation, detection, scene graph generation (SGG), and optical character recognition (OCR). Instead, the existing LLVMs rely mainly on the large capacity and emergent capabilities of their LLM backbones. Therefore, we present a new LLVM, Mixture of All Intelligence (MoAI), which leverages auxiliary visual information obtained from the outputs of external segmentation, detection, SGG, and OCR models. MoAI operates through two newly introduced modules: MoAI-Compressor and MoAI-Mixer. After verbalizing the outputs of the external CV models, the MoAI-Compressor aligns and condenses them to efficiently use relevant auxiliary visual information for VL tasks. MoAI-Mixer then blends three types of intelligence (1) visual features, (2) auxiliary features from the external CV models, and (3) language features by utilizing the concept of Mixture of Experts. Through this integration, MoAI significantly outperforms both open-source and closed-source LLVMs in numerous zero-shot VL tasks, particularly those related to real-world scene understanding such as object existence, positions, relations, and OCR without enlarging the model size or curating extra visual instruction tuning datasets.
PDF777February 8, 2026