Chimäre: Verbesserung eines Generalistenmodells mit domänenspezifischen Experten

papers.abstract

Die jüngsten Fortschritte bei Großen Multimodalen Modellen (LMMs) unterstreichen die Bedeutung des Skalierens durch die Erhöhung von Bild-Text-Paar-Daten und erreichen beeindruckende Leistungen bei allgemeinen Aufgaben. Trotz ihrer Wirksamkeit in breiten Anwendungen werden Generalisten-Modelle hauptsächlich auf webbasierten Datensätzen trainiert, die von natürlichen Bildern dominiert werden, was zu einem Verzicht auf spezialisierte Fähigkeiten für domänenspezifische Aufgaben führt, die umfangreiches Vorwissen erfordern. Darüber hinaus ist die direkte Integration von Expertenmodellen, die für spezifische Domänen maßgeschneidert sind, aufgrund der Repräsentationslücke und des unausgewogenen Optimierung zwischen dem Generalisten-Modell und den Experten eine Herausforderung. Um diesen Herausforderungen zu begegnen, stellen wir Chimera vor, eine skalierbare und kostengünstige multimodale Pipeline, die entwickelt wurde, um die Fähigkeit bestehender LMMs mit domänenspezifischen Experten zu stärken. Konkret entwerfen wir eine progressive Schulungsstrategie, um Merkmale von Expertenmodellen in den Eingang eines Generalisten-LMM zu integrieren. Um die durch den gut ausgerichteten allgemeinen visuellen Encoder verursachte unausgewogene Optimierung anzugehen, führen wir einen neuartigen Mechanismus der Generalist-Spezialist-Kollaborationsmaskierung (GSCM) ein. Dies führt zu einem vielseitigen Modell, das in den Bereichen Diagramm, Tabelle, Mathematik und Dokument herausragende Leistungen erbringt und Spitzenleistungen bei multimodalem Denken und visueller Inhaltsextraktion erzielt, die beide herausfordernde Aufgaben zur Bewertung bestehender LMMs darstellen.

English

Recent advancements in Large Multi-modal Models (LMMs) underscore the importance of scaling by increasing image-text paired data, achieving impressive performance on general tasks. Despite their effectiveness in broad applications, generalist models are primarily trained on web-scale datasets dominated by natural images, resulting in the sacrifice of specialized capabilities for domain-specific tasks that require extensive domain prior knowledge. Moreover, directly integrating expert models tailored for specific domains is challenging due to the representational gap and imbalanced optimization between the generalist model and experts. To address these challenges, we introduce Chimera, a scalable and low-cost multi-modal pipeline designed to boost the ability of existing LMMs with domain-specific experts. Specifically, we design a progressive training strategy to integrate features from expert models into the input of a generalist LMM. To address the imbalanced optimization caused by the well-aligned general visual encoder, we introduce a novel Generalist-Specialist Collaboration Masking (GSCM) mechanism. This results in a versatile model that excels across the chart, table, math, and document domains, achieving state-of-the-art performance on multi-modal reasoning and visual content extraction tasks, both of which are challenging tasks for assessing existing LMMs.

Chimäre: Verbesserung eines Generalistenmodells mit domänenspezifischen Experten

Chimera: Improving Generalist Model with Domain-Specific Experts

papers.abstract

Support