ChatPaper.aiChatPaper

キメラ:ドメイン固有の専門家を活用した汎用モデルの改善

Chimera: Improving Generalist Model with Domain-Specific Experts

December 8, 2024
著者: Tianshuo Peng, Mingsheng Li, Hongbin Zhou, Renqiu Xia, Renrui Zhang, Lei Bai, Song Mao, Bin Wang, Conghui He, Aojun Zhou, Botian Shi, Tao Chen, Bo Zhang, Xiangyu Yue
cs.AI

要旨

最近の大規模多モーダルモデル(LMMs)の進歩は、画像とテキストのペアデータを増やすことによるスケーリングの重要性を強調し、一般的なタスクで印象的なパフォーマンスを達成しています。一般的なモデルは幅広い応用に効果的ですが、主に自然画像が支配するウェブスケールのデータセットで訓練されており、多くのドメイン固有の事前知識が必要な特定のタスクのための専門能力を犠牲にしています。さらに、特定のドメインに適合した専門モデルを直接統合することは、一般的なモデルと専門家の間の表現ギャップや最適化の不均衡のために困難です。これらの課題に対処するために、私たちはChimeraを導入します。これは、既存のLMMsの能力をドメイン固有の専門家と組み合わせるために設計されたスケーラブルで低コストなマルチモーダルパイプラインです。具体的には、専門家モデルの特徴を一般的なLMMの入力に統合するためのプログレッシブトレーニング戦略を設計しています。一般的なビジュアルエンコーダとの整合性の取れた最適化に起因する不均衡を解消するために、新しい一般的専門家協力マスキング(GSCM)メカニズムを導入しています。これにより、チャート、表、数学、および文書のドメイン全体で優れたパフォーマンスを発揮する汎用モデルが実現し、既存のLMMsを評価する上で難しいマルチモーダル推論と視覚コンテンツ抽出タスクで最先端のパフォーマンスを達成しています。
English
Recent advancements in Large Multi-modal Models (LMMs) underscore the importance of scaling by increasing image-text paired data, achieving impressive performance on general tasks. Despite their effectiveness in broad applications, generalist models are primarily trained on web-scale datasets dominated by natural images, resulting in the sacrifice of specialized capabilities for domain-specific tasks that require extensive domain prior knowledge. Moreover, directly integrating expert models tailored for specific domains is challenging due to the representational gap and imbalanced optimization between the generalist model and experts. To address these challenges, we introduce Chimera, a scalable and low-cost multi-modal pipeline designed to boost the ability of existing LMMs with domain-specific experts. Specifically, we design a progressive training strategy to integrate features from expert models into the input of a generalist LMM. To address the imbalanced optimization caused by the well-aligned general visual encoder, we introduce a novel Generalist-Specialist Collaboration Masking (GSCM) mechanism. This results in a versatile model that excels across the chart, table, math, and document domains, achieving state-of-the-art performance on multi-modal reasoning and visual content extraction tasks, both of which are challenging tasks for assessing existing LMMs.

Summary

AI-Generated Summary

PDF92December 11, 2024