ChatPaper.aiChatPaper

Sobre el Post-Entrenamiento Específico de Dominio para Modelos de Lenguaje Multimodales de Gran Escala

On Domain-Specific Post-Training for Multimodal Large Language Models

November 29, 2024
Autores: Daixuan Cheng, Shaohan Huang, Ziyu Zhu, Xintong Zhang, Wayne Xin Zhao, Zhongzhi Luan, Bo Dai, Zhenliang Zhang
cs.AI

Resumen

Los últimos años han sido testigos del rápido desarrollo de modelos de lenguaje multimodales grandes generales (MLLMs). Sin embargo, la adaptación de MLLMs generales a dominios específicos, como campos científicos y aplicaciones industriales, sigue siendo menos explorada. Este artículo investiga sistemáticamente la adaptación de dominio de MLLMs a través de post-entrenamiento, centrándose en la síntesis de datos, los flujos de entrenamiento y la evaluación de tareas. (1) Síntesis de Datos: Utilizando modelos de código abierto, desarrollamos un sintetizador de instrucciones visuales que genera eficazmente diversas tareas de instrucciones visuales a partir de pares de imágenes y subtítulos específicos del dominio. Nuestras tareas sintéticas superan a las generadas por reglas manuales, GPT-4 y GPT-4V en el mejoramiento del rendimiento específico del dominio de los MLLMs. (2) Flujo de Entrenamiento: Mientras que el entrenamiento en dos etapas, inicialmente en pares de imágenes y subtítulos seguido de tareas de instrucciones visuales, es comúnmente adoptado para desarrollar MLLMs generales, aplicamos un flujo de entrenamiento de una sola etapa para mejorar la diversidad de tareas para el post-entrenamiento específico del dominio. (3) Evaluación de Tareas: Realizamos experimentos en dos dominios, biomedicina y alimentos, post-entrenando MLLMs de diferentes fuentes y escalas (por ejemplo, Qwen2-VL-2B, LLaVA-v1.6-8B, Llama-3.2-11B), y luego evaluando el rendimiento de MLLM en diversas tareas específicas del dominio. Para apoyar futuras investigaciones en la adaptación de dominio de MLLM, compartiremos nuestros implementaciones de código abierto.
English
Recent years have witnessed the rapid development of general multimodal large language models (MLLMs). However, adapting general MLLMs to specific domains, such as scientific fields and industrial applications, remains less explored. This paper systematically investigates domain adaptation of MLLMs through post-training, focusing on data synthesis, training pipelines, and task evaluation. (1) Data Synthesis: Using open-source models, we develop a visual instruction synthesizer that effectively generates diverse visual instruction tasks from domain-specific image-caption pairs. Our synthetic tasks surpass those generated by manual rules, GPT-4, and GPT-4V in enhancing the domain-specific performance of MLLMs. (2) Training Pipeline: While the two-stage training--initially on image-caption pairs followed by visual instruction tasks--is commonly adopted for developing general MLLMs, we apply a single-stage training pipeline to enhance task diversity for domain-specific post-training. (3) Task Evaluation: We conduct experiments in two domains, biomedicine and food, by post-training MLLMs of different sources and scales (e.g., Qwen2-VL-2B, LLaVA-v1.6-8B, Llama-3.2-11B), and then evaluating MLLM performance on various domain-specific tasks. To support further research in MLLM domain adaptation, we will open-source our implementations.

Summary

AI-Generated Summary

PDF293December 2, 2024