MNAFT: ajuste fino consciente de las neuronas de modalidad para modelos de lenguaje multimodal en traducción de imágenes

Resumen

Los modelos de lenguaje multimodal (MLLM) han demostrado capacidades impresionantes, pero a menudo luchan por capturar eficazmente la información textual de grano fino dentro de las imágenes, crucial para una traducción de imagen precisa. Esto suele dar lugar a una brecha de modalidad entre las entradas de texto visual y las entradas/salidas textuales para la traducción de imágenes. Los métodos existentes, que se basan principalmente en el ajuste fino por instrucciones, conllevan el riesgo de redundancia paramétrica del conocimiento preentrenado, lo que dificulta el rendimiento de generalización. Para abordar esto, presentamos el ajuste fino consciente de las neuronas de modalidad (MNAFT), un enfoque novedoso que aprovecha los roles especializados de las neuronas individuales dentro de los MLLM para mejorar la traducción de imágenes. MNAFT identifica neuronas independientes del lenguaje y específicas del lenguaje en los módulos de visión y lenguaje mediante un análisis de activación impulsado por instrucciones, evaluando su importancia en varias tareas de traducción. Luego realizamos un ajuste fino selectivo, actualizando solo los parámetros de las neuronas específicas del lenguaje e independientes del lenguaje dentro de las capas seleccionadas relevantes para la tarea objetivo, mientras preservamos el conocimiento codificado en otras neuronas y capas. Nuestros extensos experimentos en múltiples puntos de referencia demuestran que MNAFT supera significativamente a los métodos de vanguardia en traducción de imágenes, incluidos los modelos en cascada, el ajuste fino completo estándar y las técnicas de ajuste eficiente de parámetros. Además, proporcionamos un análisis exhaustivo, que incluye visualizaciones de las activaciones neuronales y patrones de agrupamiento, para ofrecer información sobre los roles de los diferentes grupos de neuronas en la mediación de la comprensión multimodal y la facilitación de una traducción precisa y específica del lenguaje.

English

Multimodal large language models (MLLMs) have shown impressive capabilities, yet they often struggle to effectively capture the fine-grained textual information within images crucial for accurate image translation. This often leads to a modality gap between visual text inputs and textual inputs/outputs for image translation. Existing methods, primarily relying on instruction fine-tuning, risk parameter redundancy of pre-trained knowledge, hindering generalization performance. To address this, we introduce modality neuron-aware fine-tuning (MNAFT), a novel approach that takes advantage of the specialized roles of individual neurons within MLLMs for enhanced image translation. MNAFT identifies language-agnostic and language-specific neurons in both vision and language modules through an instruction-driven activation analysis, evaluating their importance in various translation tasks. We then perform selective fine-tuning, updating only the parameters of language-specific and language-agnostic neurons within the selected layers relevant to the target task, while preserving the knowledge encoded in other neurons and layers. Our extensive experiments on multiple benchmarks demonstrate that MNAFT significantly outperforms state-of-the-art image translation methods, including cascaded models, standard full fine-tuning, and parameter-efficient tuning techniques. Furthermore, we provide comprehensive analysis, including visualizations of neuron activations and clustering patterns, to offer insights into the roles of different neuron groups in mediating cross-modal understanding and facilitating accurate language-specific translation.

MNAFT: ajuste fino consciente de las neuronas de modalidad para modelos de lenguaje multimodal en traducción de imágenes

MNAFT: modality neuron-aware fine-tuning of multimodal large language models for image translation

Resumen

Support