マルチモーダルな大規模言語モデルに対するドメイン固有の事後トレーニングについて
On Domain-Specific Post-Training for Multimodal Large Language Models
November 29, 2024
著者: Daixuan Cheng, Shaohan Huang, Ziyu Zhu, Xintong Zhang, Wayne Xin Zhao, Zhongzhi Luan, Bo Dai, Zhenliang Zhang
cs.AI
要旨
近年、一般的なマルチモーダル大規模言語モデル(MLLMs)の急速な発展が目覚ましいです。ただし、一般的なMLLMsを科学分野や産業応用など特定の領域に適応させることは、未だにあまり探求されていません。本論文では、データ合成、トレーニングパイプライン、およびタスク評価に焦点を当て、MLLMsのドメイン適応を体系的に調査しています。 (1) データ合成:オープンソースモデルを使用して、特定の領域の画像キャプションペアから多様なビジュアルインストラクションタスクを効果的に生成するビジュアルインストラクション合成器を開発しました。当該合成タスクは、手動ルール、GPT-4、およびGPT-4Vによって生成されたものを上回り、MLLMsの特定の領域でのパフォーマンスを向上させています。 (2) トレーニングパイプライン:一般的なMLLMsの開発には、通常、画像キャプションペアでの初期トレーニングに続いてビジュアルインストラクションタスクでの二段階トレーニングが採用されますが、私たちは特定の領域の後段トレーニングのタスク多様性を向上させるために単一段階のトレーニングパイプラインを適用しています。 (3) タスク評価:バイオ医学と食品の2つの領域で、異なるソースとスケール(例:Qwen2-VL-2B、LLaVA-v1.6-8B、Llama-3.2-11B)のMLLMsを後段トレーニングし、さまざまな特定の領域のタスクでMLLMsのパフォーマンスを評価しています。MLLMsのドメイン適応のさらなる研究を支援するために、当社の実装をオープンソース化します。
English
Recent years have witnessed the rapid development of general multimodal large
language models (MLLMs). However, adapting general MLLMs to specific domains,
such as scientific fields and industrial applications, remains less explored.
This paper systematically investigates domain adaptation of MLLMs through
post-training, focusing on data synthesis, training pipelines, and task
evaluation. (1) Data Synthesis: Using open-source models, we develop a visual
instruction synthesizer that effectively generates diverse visual instruction
tasks from domain-specific image-caption pairs. Our synthetic tasks surpass
those generated by manual rules, GPT-4, and GPT-4V in enhancing the
domain-specific performance of MLLMs. (2) Training Pipeline: While the
two-stage training--initially on image-caption pairs followed by visual
instruction tasks--is commonly adopted for developing general MLLMs, we apply a
single-stage training pipeline to enhance task diversity for domain-specific
post-training. (3) Task Evaluation: We conduct experiments in two domains,
biomedicine and food, by post-training MLLMs of different sources and scales
(e.g., Qwen2-VL-2B, LLaVA-v1.6-8B, Llama-3.2-11B), and then evaluating MLLM
performance on various domain-specific tasks. To support further research in
MLLM domain adaptation, we will open-source our implementations.Summary
AI-Generated Summary