Chimäre: Verbesserung eines Generalistenmodells mit domänenspezifischen Experten
Chimera: Improving Generalist Model with Domain-Specific Experts
December 8, 2024
Autoren: Tianshuo Peng, Mingsheng Li, Hongbin Zhou, Renqiu Xia, Renrui Zhang, Lei Bai, Song Mao, Bin Wang, Conghui He, Aojun Zhou, Botian Shi, Tao Chen, Bo Zhang, Xiangyu Yue
cs.AI
Zusammenfassung
Die jüngsten Fortschritte bei Großen Multimodalen Modellen (LMMs) unterstreichen die Bedeutung des Skalierens durch die Erhöhung von Bild-Text-Paar-Daten und erreichen beeindruckende Leistungen bei allgemeinen Aufgaben. Trotz ihrer Wirksamkeit in breiten Anwendungen werden Generalisten-Modelle hauptsächlich auf webbasierten Datensätzen trainiert, die von natürlichen Bildern dominiert werden, was zu einem Verzicht auf spezialisierte Fähigkeiten für domänenspezifische Aufgaben führt, die umfangreiches Vorwissen erfordern. Darüber hinaus ist die direkte Integration von Expertenmodellen, die für spezifische Domänen maßgeschneidert sind, aufgrund der Repräsentationslücke und des unausgewogenen Optimierung zwischen dem Generalisten-Modell und den Experten eine Herausforderung. Um diesen Herausforderungen zu begegnen, stellen wir Chimera vor, eine skalierbare und kostengünstige multimodale Pipeline, die entwickelt wurde, um die Fähigkeit bestehender LMMs mit domänenspezifischen Experten zu stärken. Konkret entwerfen wir eine progressive Schulungsstrategie, um Merkmale von Expertenmodellen in den Eingang eines Generalisten-LMM zu integrieren. Um die durch den gut ausgerichteten allgemeinen visuellen Encoder verursachte unausgewogene Optimierung anzugehen, führen wir einen neuartigen Mechanismus der Generalist-Spezialist-Kollaborationsmaskierung (GSCM) ein. Dies führt zu einem vielseitigen Modell, das in den Bereichen Diagramm, Tabelle, Mathematik und Dokument herausragende Leistungen erbringt und Spitzenleistungen bei multimodalem Denken und visueller Inhaltsextraktion erzielt, die beide herausfordernde Aufgaben zur Bewertung bestehender LMMs darstellen.
English
Recent advancements in Large Multi-modal Models (LMMs) underscore the
importance of scaling by increasing image-text paired data, achieving
impressive performance on general tasks. Despite their effectiveness in broad
applications, generalist models are primarily trained on web-scale datasets
dominated by natural images, resulting in the sacrifice of specialized
capabilities for domain-specific tasks that require extensive domain prior
knowledge. Moreover, directly integrating expert models tailored for specific
domains is challenging due to the representational gap and imbalanced
optimization between the generalist model and experts. To address these
challenges, we introduce Chimera, a scalable and low-cost multi-modal pipeline
designed to boost the ability of existing LMMs with domain-specific experts.
Specifically, we design a progressive training strategy to integrate features
from expert models into the input of a generalist LMM. To address the
imbalanced optimization caused by the well-aligned general visual encoder, we
introduce a novel Generalist-Specialist Collaboration Masking (GSCM) mechanism.
This results in a versatile model that excels across the chart, table, math,
and document domains, achieving state-of-the-art performance on multi-modal
reasoning and visual content extraction tasks, both of which are challenging
tasks for assessing existing LMMs.