MMEvol: Усиление мультимодальных крупных языковых моделей с помощью Evol-Instruct

Аннотация

Развитие мультимодельных больших языковых моделей (MLLM) претерпело значительные усовершенствования. Однако количество и качество мультимодальных инструкционных данных выявились как значительные узкие места в их развитии. Ручное создание мультимодальных инструкционных данных является как трудоемким, так и неэффективным, что создает проблемы в создании инструкций высокой сложности. Более того, дистилляция инструкционных данных из коммерческих моделей "черного ящика" (например, GPT-4o, GPT-4V) часто приводит к упрощенным инструкционным данным, что ограничивает производительность до уровня этих моделей. Проблема курирования разнообразных и сложных инструкционных данных остается значительной. Мы предлагаем MMEvol, новую мультимодальную рамку эволюции инструкционных данных, которая объединяет эволюцию тонкой перцепции, эволюцию когнитивного рассуждения и эволюцию взаимодействия. Этот итерационный подход преодолевает узкие места качества данных для создания сложного и разнообразного набора инструкций изображение-текст, тем самым усиливая возможности MLLM. Начиная с первоначального набора инструкций SEED-163K, мы используем MMEvol для систематического расширения разнообразия типов инструкций, интегрируем шаги рассуждения для улучшения когнитивных возможностей и извлекаем детальную информацию из изображений для улучшения визуального понимания и надежности. Для всесторонней оценки эффективности наших данных мы обучаем LLaVA-NeXT с использованием эволюционированных данных и проводим эксперименты по 13 задачам видео-языкового восприятия. По сравнению с базовым обучением на начальных данных, наш подход достигает среднего увеличения точности на 3,1 пункта и достигает передовой производительности на 9 из этих задач.

English

The development of Multimodal Large Language Models (MLLMs) has seen significant advancements. However, the quantity and quality of multimodal instruction data have emerged as significant bottlenecks in their progress. Manually creating multimodal instruction data is both time-consuming and inefficient, posing challenges in producing instructions of high complexity. Moreover, distilling instruction data from black-box commercial models (e.g., GPT-4o, GPT-4V) often results in simplistic instruction data, which constrains performance to that of these models. The challenge of curating diverse and complex instruction data remains substantial. We propose MMEvol, a novel multimodal instruction data evolution framework that combines fine-grained perception evolution, cognitive reasoning evolution, and interaction evolution. This iterative approach breaks through data quality bottlenecks to generate a complex and diverse image-text instruction dataset, thereby empowering MLLMs with enhanced capabilities. Beginning with an initial set of instructions, SEED-163K, we utilize MMEvol to systematically broadens the diversity of instruction types, integrates reasoning steps to enhance cognitive capabilities, and extracts detailed information from images to improve visual understanding and robustness. To comprehensively evaluate the effectiveness of our data, we train LLaVA-NeXT using the evolved data and conduct experiments across 13 vision-language tasks. Compared to the baseline trained with seed data, our approach achieves an average accuracy improvement of 3.1 points and reaches state-of-the-art (SOTA) performance on 9 of these tasks.

MMEvol: Усиление мультимодальных крупных языковых моделей с помощью Evol-Instruct

MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct

Аннотация

Support