MoAI: Mischung aller Intelligenz für große Sprach- und Bildmodelle

papers.abstract

Der Aufstieg großer Sprachmodelle (LLMs) und Instruktionstuning hat zur aktuellen Entwicklung von instruktionsangepassten großen Sprach- und Bildmodellen (LLVMs) geführt. Diese Entwicklung beinhaltet entweder die sorgfältige Zusammenstellung zahlreicher instruktionsangepasster Datensätze, die auf spezifische Ziele zugeschnitten sind, oder die Vergrößerung von LLVMs, um riesige Mengen an Bildsprachdaten zu verarbeiten. Aktuelle LLVMs haben jedoch die detaillierte und umfassende Echtwelt-Szenenverständnis, das von spezialisierten Computer Vision (CV) Modellen in visuellen Wahrnehmungsaufgaben wie Segmentierung, Detektion, Szenengraphenerstellung (SGG) und optischer Zeichenerkennung (OCR) verfügbar ist, vernachlässigt. Stattdessen stützen sich die bestehenden LLVMs hauptsächlich auf die große Kapazität und aufkommenden Fähigkeiten ihrer LLM-Grundlagen. Daher präsentieren wir ein neues LLVM, Mixture of All Intelligence (MoAI), das auf zusätzlichen visuellen Informationen basiert, die aus den Ausgaben externer Segmentierungs-, Detektions-, SGG- und OCR-Modelle gewonnen wurden. MoAI arbeitet mit zwei neu eingeführten Modulen: MoAI-Kompressor und MoAI-Mixer. Nach der verbalen Darstellung der Ausgaben der externen CV-Modelle richtet und verdichtet der MoAI-Kompressor diese, um relevante zusätzliche visuelle Informationen effizient für VL-Aufgaben zu nutzen. MoAI-Mixer mischt dann drei Arten von Intelligenz (1) visuelle Merkmale, (2) zusätzliche Merkmale aus den externen CV-Modellen und (3) Sprachmerkmale unter Verwendung des Konzepts der Mischung von Experten. Durch diese Integration übertrifft MoAI signifikant sowohl Open-Source als auch Closed-Source LLVMs in zahlreichen Zero-Shot VL-Aufgaben, insbesondere solchen, die mit dem Echtwelt-Szenenverständnis wie Objektexistenz, Positionen, Beziehungen und OCR zusammenhängen, ohne die Modellgröße zu vergrößern oder zusätzliche visuelle Instruktionstuning-Datensätze zusammenzustellen.

English

The rise of large language models (LLMs) and instruction tuning has led to the current trend of instruction-tuned large language and vision models (LLVMs). This trend involves either meticulously curating numerous instruction tuning datasets tailored to specific objectives or enlarging LLVMs to manage vast amounts of vision language (VL) data. However, current LLVMs have disregarded the detailed and comprehensive real-world scene understanding available from specialized computer vision (CV) models in visual perception tasks such as segmentation, detection, scene graph generation (SGG), and optical character recognition (OCR). Instead, the existing LLVMs rely mainly on the large capacity and emergent capabilities of their LLM backbones. Therefore, we present a new LLVM, Mixture of All Intelligence (MoAI), which leverages auxiliary visual information obtained from the outputs of external segmentation, detection, SGG, and OCR models. MoAI operates through two newly introduced modules: MoAI-Compressor and MoAI-Mixer. After verbalizing the outputs of the external CV models, the MoAI-Compressor aligns and condenses them to efficiently use relevant auxiliary visual information for VL tasks. MoAI-Mixer then blends three types of intelligence (1) visual features, (2) auxiliary features from the external CV models, and (3) language features by utilizing the concept of Mixture of Experts. Through this integration, MoAI significantly outperforms both open-source and closed-source LLVMs in numerous zero-shot VL tasks, particularly those related to real-world scene understanding such as object existence, positions, relations, and OCR without enlarging the model size or curating extra visual instruction tuning datasets.

MoAI: Mischung aller Intelligenz für große Sprach- und Bildmodelle

MoAI: Mixture of All Intelligence for Large Language and Vision Models

papers.abstract

Support