MoAI: Mischung aller Intelligenz für große Sprach- und Bildmodelle
MoAI: Mixture of All Intelligence for Large Language and Vision Models
March 12, 2024
Autoren: Byung-Kwan Lee, Beomchan Park, Chae Won Kim, Yong Man Ro
cs.AI
Zusammenfassung
Der Aufstieg großer Sprachmodelle (LLMs) und Instruktionstuning hat zur aktuellen Entwicklung von instruktionsangepassten großen Sprach- und Bildmodellen (LLVMs) geführt. Diese Entwicklung beinhaltet entweder die sorgfältige Zusammenstellung zahlreicher instruktionsangepasster Datensätze, die auf spezifische Ziele zugeschnitten sind, oder die Vergrößerung von LLVMs, um riesige Mengen an Bildsprachdaten zu verarbeiten. Aktuelle LLVMs haben jedoch die detaillierte und umfassende Echtwelt-Szenenverständnis, das von spezialisierten Computer Vision (CV) Modellen in visuellen Wahrnehmungsaufgaben wie Segmentierung, Detektion, Szenengraphenerstellung (SGG) und optischer Zeichenerkennung (OCR) verfügbar ist, vernachlässigt. Stattdessen stützen sich die bestehenden LLVMs hauptsächlich auf die große Kapazität und aufkommenden Fähigkeiten ihrer LLM-Grundlagen. Daher präsentieren wir ein neues LLVM, Mixture of All Intelligence (MoAI), das auf zusätzlichen visuellen Informationen basiert, die aus den Ausgaben externer Segmentierungs-, Detektions-, SGG- und OCR-Modelle gewonnen wurden. MoAI arbeitet mit zwei neu eingeführten Modulen: MoAI-Kompressor und MoAI-Mixer. Nach der verbalen Darstellung der Ausgaben der externen CV-Modelle richtet und verdichtet der MoAI-Kompressor diese, um relevante zusätzliche visuelle Informationen effizient für VL-Aufgaben zu nutzen. MoAI-Mixer mischt dann drei Arten von Intelligenz (1) visuelle Merkmale, (2) zusätzliche Merkmale aus den externen CV-Modellen und (3) Sprachmerkmale unter Verwendung des Konzepts der Mischung von Experten. Durch diese Integration übertrifft MoAI signifikant sowohl Open-Source als auch Closed-Source LLVMs in zahlreichen Zero-Shot VL-Aufgaben, insbesondere solchen, die mit dem Echtwelt-Szenenverständnis wie Objektexistenz, Positionen, Beziehungen und OCR zusammenhängen, ohne die Modellgröße zu vergrößern oder zusätzliche visuelle Instruktionstuning-Datensätze zusammenzustellen.
English
The rise of large language models (LLMs) and instruction tuning has led to
the current trend of instruction-tuned large language and vision models
(LLVMs). This trend involves either meticulously curating numerous instruction
tuning datasets tailored to specific objectives or enlarging LLVMs to manage
vast amounts of vision language (VL) data. However, current LLVMs have
disregarded the detailed and comprehensive real-world scene understanding
available from specialized computer vision (CV) models in visual perception
tasks such as segmentation, detection, scene graph generation (SGG), and
optical character recognition (OCR). Instead, the existing LLVMs rely mainly on
the large capacity and emergent capabilities of their LLM backbones. Therefore,
we present a new LLVM, Mixture of All Intelligence (MoAI), which leverages
auxiliary visual information obtained from the outputs of external
segmentation, detection, SGG, and OCR models. MoAI operates through two newly
introduced modules: MoAI-Compressor and MoAI-Mixer. After verbalizing the
outputs of the external CV models, the MoAI-Compressor aligns and condenses
them to efficiently use relevant auxiliary visual information for VL tasks.
MoAI-Mixer then blends three types of intelligence (1) visual features, (2)
auxiliary features from the external CV models, and (3) language features by
utilizing the concept of Mixture of Experts. Through this integration, MoAI
significantly outperforms both open-source and closed-source LLVMs in numerous
zero-shot VL tasks, particularly those related to real-world scene
understanding such as object existence, positions, relations, and OCR without
enlarging the model size or curating extra visual instruction tuning datasets.Summary
AI-Generated Summary