MoAI: Mischung aller Intelligenz für große Sprach- und BildmodelleMoAI: Mixture of All Intelligence for Large Language and Vision Models
Der Aufstieg großer Sprachmodelle (LLMs) und Instruktionstuning hat zur aktuellen Entwicklung von instruktionsangepassten großen Sprach- und Bildmodellen (LLVMs) geführt. Diese Entwicklung beinhaltet entweder die sorgfältige Zusammenstellung zahlreicher instruktionsangepasster Datensätze, die auf spezifische Ziele zugeschnitten sind, oder die Vergrößerung von LLVMs, um riesige Mengen an Bildsprachdaten zu verarbeiten. Aktuelle LLVMs haben jedoch die detaillierte und umfassende Echtwelt-Szenenverständnis, das von spezialisierten Computer Vision (CV) Modellen in visuellen Wahrnehmungsaufgaben wie Segmentierung, Detektion, Szenengraphenerstellung (SGG) und optischer Zeichenerkennung (OCR) verfügbar ist, vernachlässigt. Stattdessen stützen sich die bestehenden LLVMs hauptsächlich auf die große Kapazität und aufkommenden Fähigkeiten ihrer LLM-Grundlagen. Daher präsentieren wir ein neues LLVM, Mixture of All Intelligence (MoAI), das auf zusätzlichen visuellen Informationen basiert, die aus den Ausgaben externer Segmentierungs-, Detektions-, SGG- und OCR-Modelle gewonnen wurden. MoAI arbeitet mit zwei neu eingeführten Modulen: MoAI-Kompressor und MoAI-Mixer. Nach der verbalen Darstellung der Ausgaben der externen CV-Modelle richtet und verdichtet der MoAI-Kompressor diese, um relevante zusätzliche visuelle Informationen effizient für VL-Aufgaben zu nutzen. MoAI-Mixer mischt dann drei Arten von Intelligenz (1) visuelle Merkmale, (2) zusätzliche Merkmale aus den externen CV-Modellen und (3) Sprachmerkmale unter Verwendung des Konzepts der Mischung von Experten. Durch diese Integration übertrifft MoAI signifikant sowohl Open-Source als auch Closed-Source LLVMs in zahlreichen Zero-Shot VL-Aufgaben, insbesondere solchen, die mit dem Echtwelt-Szenenverständnis wie Objektexistenz, Positionen, Beziehungen und OCR zusammenhängen, ohne die Modellgröße zu vergrößern oder zusätzliche visuelle Instruktionstuning-Datensätze zusammenzustellen.