ChatPaper.aiChatPaper

Chimera: Verbetering van een generalistisch model met domeinspecifieke experts

Chimera: Improving Generalist Model with Domain-Specific Experts

December 8, 2024
Auteurs: Tianshuo Peng, Mingsheng Li, Hongbin Zhou, Renqiu Xia, Renrui Zhang, Lei Bai, Song Mao, Bin Wang, Conghui He, Aojun Zhou, Botian Shi, Tao Chen, Bo Zhang, Xiangyu Yue
cs.AI

Samenvatting

Recente ontwikkelingen in Grote Multi-modale Modellen (GMM's) benadrukken het belang van schaalvergroting door het vergroten van beeld-tekst gekoppelde gegevens, wat indrukwekkende prestaties oplevert bij algemene taken. Ondanks hun effectiviteit in brede toepassingen, worden generalistische modellen voornamelijk getraind op datasets op webschaal gedomineerd door natuurlijke beelden, wat resulteert in het opofferen van gespecialiseerde mogelijkheden voor domeinspecifieke taken die uitgebreide domeinvoorafkennis vereisen. Bovendien is het rechtstreeks integreren van expertmodellen die zijn afgestemd op specifieke domeinen uitdagend vanwege de representatiekloof en het onevenwichtige optimalisatie tussen het generalistische model en de experts. Om deze uitdagingen aan te pakken, introduceren we Chimera, een schaalbaar en kosteneffectief multi-modale pijplijn die is ontworpen om de capaciteit van bestaande GMM's te versterken met domeinspecifieke experts. Specifiek ontwerpen we een progressieve trainingsstrategie om kenmerken van expertmodellen te integreren in de invoer van een generalistisch GMM. Om de onevenwichtige optimalisatie veroorzaakt door de goed uitgelijnde algemene visuele encoder aan te pakken, introduceren we een nieuw mechanisme genaamd Algemeen-Specialist Samenwerkingsmaskering (GSCM). Dit resulteert in een veelzijdig model dat uitblinkt in de domeinen van grafieken, tabellen, wiskunde en documenten, waarbij het state-of-the-art prestaties behaalt bij multi-modale redeneer- en visuele inhoudsextractietaken, beide uitdagende taken voor het beoordelen van bestaande GMM's.
English
Recent advancements in Large Multi-modal Models (LMMs) underscore the importance of scaling by increasing image-text paired data, achieving impressive performance on general tasks. Despite their effectiveness in broad applications, generalist models are primarily trained on web-scale datasets dominated by natural images, resulting in the sacrifice of specialized capabilities for domain-specific tasks that require extensive domain prior knowledge. Moreover, directly integrating expert models tailored for specific domains is challenging due to the representational gap and imbalanced optimization between the generalist model and experts. To address these challenges, we introduce Chimera, a scalable and low-cost multi-modal pipeline designed to boost the ability of existing LMMs with domain-specific experts. Specifically, we design a progressive training strategy to integrate features from expert models into the input of a generalist LMM. To address the imbalanced optimization caused by the well-aligned general visual encoder, we introduce a novel Generalist-Specialist Collaboration Masking (GSCM) mechanism. This results in a versatile model that excels across the chart, table, math, and document domains, achieving state-of-the-art performance on multi-modal reasoning and visual content extraction tasks, both of which are challenging tasks for assessing existing LMMs.
PDF92December 11, 2024