MNAFT: fine-tuning consapevole dei neuroni modali per modelli linguistici multimodali di grandi dimensioni applicati alla traduzione di immagini

Abstract

I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno dimostrato capacità impressionanti, ma spesso faticano a catturare efficacemente le informazioni testuali fini all'interno delle immagini, cruciali per una traduzione accurata delle immagini. Ciò porta spesso a un divario modale tra gli input di testo visivo e gli input/output testuali per la traduzione di immagini. I metodi esistenti, che si basano principalmente sulla messa a punto per istruzione, rischiano una ridondanza parametrica della conoscenza pre-addestrata, ostacolando le prestazioni di generalizzazione. Per affrontare questo problema, introduciamo la messa a punto consapevole dei neuroni modali (MNAFT), un approccio innovativo che sfrutta i ruoli specializzati dei singoli neuroni all'interno degli MLLM per una traduzione di immagini migliorata. MNAFT identifica i neuroni indipendenti dalla lingua e specifici della lingua sia nei moduli visivi che linguistici attraverso un'analisi di attivazione guidata da istruzioni, valutandone l'importanza in varie attività di traduzione. Eseguiamo quindi una messa a punto selettiva, aggiornando solo i parametri dei neuroni specifici della lingua e indipendenti dalla lingua all'interno degli strati selezionati rilevanti per il compito target, preservando al contempo la conoscenza codificata in altri neuroni e strati. I nostri ampi esperimenti su molteplici benchmark dimostrano che MNAFT supera significativamente i metodi all'avanguardia per la traduzione di immagini, inclusi i modelli a cascata, la messa a punto completa standard e le tecniche di ottimizzazione efficienti in termini di parametri. Inoltre, forniamo un'analisi completa, includendo visualizzazioni delle attivazioni neuronali e dei modelli di clustering, per offrire approfondimenti sui ruoli dei diversi gruppi di neuroni nella mediazione della comprensione cross-modale e nel facilitare una traduzione accurata e specifica della lingua.

English

Multimodal large language models (MLLMs) have shown impressive capabilities, yet they often struggle to effectively capture the fine-grained textual information within images crucial for accurate image translation. This often leads to a modality gap between visual text inputs and textual inputs/outputs for image translation. Existing methods, primarily relying on instruction fine-tuning, risk parameter redundancy of pre-trained knowledge, hindering generalization performance. To address this, we introduce modality neuron-aware fine-tuning (MNAFT), a novel approach that takes advantage of the specialized roles of individual neurons within MLLMs for enhanced image translation. MNAFT identifies language-agnostic and language-specific neurons in both vision and language modules through an instruction-driven activation analysis, evaluating their importance in various translation tasks. We then perform selective fine-tuning, updating only the parameters of language-specific and language-agnostic neurons within the selected layers relevant to the target task, while preserving the knowledge encoded in other neurons and layers. Our extensive experiments on multiple benchmarks demonstrate that MNAFT significantly outperforms state-of-the-art image translation methods, including cascaded models, standard full fine-tuning, and parameter-efficient tuning techniques. Furthermore, we provide comprehensive analysis, including visualizations of neuron activations and clustering patterns, to offer insights into the roles of different neuron groups in mediating cross-modal understanding and facilitating accurate language-specific translation.

MNAFT: fine-tuning consapevole dei neuroni modali per modelli linguistici multimodali di grandi dimensioni applicati alla traduzione di immagini

MNAFT: modality neuron-aware fine-tuning of multimodal large language models for image translation

Abstract

Support