MMEvol: Усиление мультимодальных крупных языковых моделей с помощью Evol-Instruct
MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct
September 9, 2024
Авторы: Run Luo, Haonan Zhang, Longze Chen, Ting-En Lin, Xiong Liu, Yuchuan Wu, Min Yang, Minzheng Wang, Pengpeng Zeng, Lianli Gao, Heng Tao Shen, Yunshui Li, Xiaobo Xia, Fei Huang, Jingkuan Song, Yongbin Li
cs.AI
Аннотация
Развитие мультимодельных больших языковых моделей (MLLM) претерпело значительные усовершенствования. Однако количество и качество мультимодальных инструкционных данных выявились как значительные узкие места в их развитии. Ручное создание мультимодальных инструкционных данных является как трудоемким, так и неэффективным, что создает проблемы в создании инструкций высокой сложности. Более того, дистилляция инструкционных данных из коммерческих моделей "черного ящика" (например, GPT-4o, GPT-4V) часто приводит к упрощенным инструкционным данным, что ограничивает производительность до уровня этих моделей. Проблема курирования разнообразных и сложных инструкционных данных остается значительной. Мы предлагаем MMEvol, новую мультимодальную рамку эволюции инструкционных данных, которая объединяет эволюцию тонкой перцепции, эволюцию когнитивного рассуждения и эволюцию взаимодействия. Этот итерационный подход преодолевает узкие места качества данных для создания сложного и разнообразного набора инструкций изображение-текст, тем самым усиливая возможности MLLM. Начиная с первоначального набора инструкций SEED-163K, мы используем MMEvol для систематического расширения разнообразия типов инструкций, интегрируем шаги рассуждения для улучшения когнитивных возможностей и извлекаем детальную информацию из изображений для улучшения визуального понимания и надежности. Для всесторонней оценки эффективности наших данных мы обучаем LLaVA-NeXT с использованием эволюционированных данных и проводим эксперименты по 13 задачам видео-языкового восприятия. По сравнению с базовым обучением на начальных данных, наш подход достигает среднего увеличения точности на 3,1 пункта и достигает передовой производительности на 9 из этих задач.
English
The development of Multimodal Large Language Models (MLLMs) has seen
significant advancements. However, the quantity and quality of multimodal
instruction data have emerged as significant bottlenecks in their progress.
Manually creating multimodal instruction data is both time-consuming and
inefficient, posing challenges in producing instructions of high complexity.
Moreover, distilling instruction data from black-box commercial models (e.g.,
GPT-4o, GPT-4V) often results in simplistic instruction data, which constrains
performance to that of these models. The challenge of curating diverse and
complex instruction data remains substantial. We propose MMEvol, a novel
multimodal instruction data evolution framework that combines fine-grained
perception evolution, cognitive reasoning evolution, and interaction evolution.
This iterative approach breaks through data quality bottlenecks to generate a
complex and diverse image-text instruction dataset, thereby empowering MLLMs
with enhanced capabilities. Beginning with an initial set of instructions,
SEED-163K, we utilize MMEvol to systematically broadens the diversity of
instruction types, integrates reasoning steps to enhance cognitive
capabilities, and extracts detailed information from images to improve visual
understanding and robustness. To comprehensively evaluate the effectiveness of
our data, we train LLaVA-NeXT using the evolved data and conduct experiments
across 13 vision-language tasks. Compared to the baseline trained with seed
data, our approach achieves an average accuracy improvement of 3.1 points and
reaches state-of-the-art (SOTA) performance on 9 of these tasks.Summary
AI-Generated Summary