MNAFT: 画像翻訳のためのマルチモーダル大規模言語モデルのモダリティニューロン考慮ファインチューニング
MNAFT: modality neuron-aware fine-tuning of multimodal large language models for image translation
April 18, 2026
著者: Bo Li, Ningyuan Deng, Tianyu Dong, Shaobo Wang, Shaolin Zhu, Lijie Wen
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLM)は印象的な能力を示す一方で、正確な画像翻訳に不可欠な画像内の細粒度テキスト情報を効果的に捉えることに課題を抱えている。これにより、画像翻訳における視覚的テキスト入力とテキスト入出力の間にモダリティギャップが生じることが多い。既存手法は主に指示チューニングに依存するが、事前学習済み知識のパラメータ冗長化リスクがあり、汎化性能を阻害する。この問題に対処するため、我々はモダリティニューロン考慮型ファインチューニング(MNAFT)を提案する。これは画像翻訳の強化のために、MLLM内の個々のニューロンの専門的役割を活用する新規アプローチである。MNAFTは、指示駆動型活性化分析を通じて視覚モジュールと言語モジュールの言語非依存ニューロンと言語特化ニューロンを特定し、様々な翻訳タスクにおけるそれらの重要性を評価する。その後、対象タスクに関連する選択層内の言語特化ニューロンと言語非依存ニューロンのパラメータのみを更新する選択的ファインチューニングを実施し、他のニューロンや層に符号化された知識を保持する。複数ベンチマークでの大規模な実験により、MNAFTがカスケードモデル、標準的な完全ファインチューニング、パラメータ効率型チューニング技術を含む最先端の画像翻訳手法を大幅に上回ることを実証した。さらに、ニューロン活性化の可視化やクラスタリングパターンを含む包括的分析を提供し、異なるニューロングループがマルチモーダル理解の仲介や正確な言語特化翻訳の促進において果たす役割に関する知見を提示する。
English
Multimodal large language models (MLLMs) have shown impressive capabilities, yet they often struggle to effectively capture the fine-grained textual information within images crucial for accurate image translation. This often leads to a modality gap between visual text inputs and textual inputs/outputs for image translation. Existing methods, primarily relying on instruction fine-tuning, risk parameter redundancy of pre-trained knowledge, hindering generalization performance. To address this, we introduce modality neuron-aware fine-tuning (MNAFT), a novel approach that takes advantage of the specialized roles of individual neurons within MLLMs for enhanced image translation. MNAFT identifies language-agnostic and language-specific neurons in both vision and language modules through an instruction-driven activation analysis, evaluating their importance in various translation tasks. We then perform selective fine-tuning, updating only the parameters of language-specific and language-agnostic neurons within the selected layers relevant to the target task, while preserving the knowledge encoded in other neurons and layers. Our extensive experiments on multiple benchmarks demonstrate that MNAFT significantly outperforms state-of-the-art image translation methods, including cascaded models, standard full fine-tuning, and parameter-efficient tuning techniques. Furthermore, we provide comprehensive analysis, including visualizations of neuron activations and clustering patterns, to offer insights into the roles of different neuron groups in mediating cross-modal understanding and facilitating accurate language-specific translation.