MNAFT: 이미지 변환을 위한 다중모달 대규모 언어 모델의 양식 뉴런 인식 미세 조정
MNAFT: modality neuron-aware fine-tuning of multimodal large language models for image translation
April 18, 2026
저자: Bo Li, Ningyuan Deng, Tianyu Dong, Shaobo Wang, Shaolin Zhu, Lijie Wen
cs.AI
초록
다중모달 대규모 언어 모델(MLLMs)은 인상적인 능력을 보여주지만, 정확한 이미지 번역에 중요한 이미지 내 세밀한 텍스트 정보를 효과적으로 포착하는 데는 종종 어려움을 겪습니다. 이로 인해 이미지 번역을 위한 시각적 텍스트 입력과 텍스트 입력/출력 간의 모달리티 간극이 발생하는 경우가 많습니다. 주로 지시 미세조정에 의존하는 기존 방법들은 사전 학습된 지식의 매개변수 중복을 초래하여 일반화 성능을 저해할 위험이 있습니다. 이를 해결하기 위해 우리는 향상된 이미지 번역을 위해 MLLMs 내 개별 뉴런의 특화된 역할을 활용하는 새로운 접근법인 모달리티 뉴런 인식 미세조정(MNAFT)을 제안합니다. MNAFT는 지시 기반 활성화 분석을 통해 시각 및 언어 모듈의 언어-불특정 뉴런과 언어-특정 뉴런을 식별하고 다양한 번역 작업에서 이들의 중요성을 평가합니다. 그런 다음 대상 작업과 관련된 선택된 계층 내에서 언어-특정 및 언어-불특정 뉴런의 매개변수만 선택적으로 업데이트하는 미세조정을 수행하며, 다른 뉴런과 계층에 인코딩된 지식은 보존합니다. 여러 벤치마크에 대한 광범위한 실험을 통해 MNAFT가 캐스케이드 모델, 표준 전체 미세조정 및 매개변수 효율적 조정 기법을 포함한 최첨단 이미지 번역 방법들을 크게 능가함을 입증했습니다. 더 나아가, 뉴런 활성화 및 클러스터링 패턴의 시각화를 포함한 포괄적인 분석을 제공하여 교차 모달 이해를 매개하고 정확한 언어-특정 번역을 용이하게 하는 다양한 뉴런 그룹의 역할에 대한 통찰을 제시합니다.
English
Multimodal large language models (MLLMs) have shown impressive capabilities, yet they often struggle to effectively capture the fine-grained textual information within images crucial for accurate image translation. This often leads to a modality gap between visual text inputs and textual inputs/outputs for image translation. Existing methods, primarily relying on instruction fine-tuning, risk parameter redundancy of pre-trained knowledge, hindering generalization performance. To address this, we introduce modality neuron-aware fine-tuning (MNAFT), a novel approach that takes advantage of the specialized roles of individual neurons within MLLMs for enhanced image translation. MNAFT identifies language-agnostic and language-specific neurons in both vision and language modules through an instruction-driven activation analysis, evaluating their importance in various translation tasks. We then perform selective fine-tuning, updating only the parameters of language-specific and language-agnostic neurons within the selected layers relevant to the target task, while preserving the knowledge encoded in other neurons and layers. Our extensive experiments on multiple benchmarks demonstrate that MNAFT significantly outperforms state-of-the-art image translation methods, including cascaded models, standard full fine-tuning, and parameter-efficient tuning techniques. Furthermore, we provide comprehensive analysis, including visualizations of neuron activations and clustering patterns, to offer insights into the roles of different neuron groups in mediating cross-modal understanding and facilitating accurate language-specific translation.