От слепых зон к прорывам: диагностически-ориентированное итеративное обучение больших мультимодальных моделей

Аннотация

По мере масштабирования больших мультимодальных моделей (LMM) и совершенствования методов обучения с подкреплением (RL), LMM демонстрируют значительный прогресс в сложных рассуждениях и принятии решений. Однако обучение по-прежнему основывается на статических данных и фиксированных подходах, что затрудняет диагностику пробелов в возможностях и обеспечение динамического целевого усиления. Мотивированные выводами о том, что обучение на ошибках через тестирование и коррекция на основе обратной связи превосходят повторяющуюся практику, мы предлагаем Диагностически-управляемое прогрессивное развитие (DPE) — спиральный цикл, в котором диагностика направляет генерацию данных и усиление, а каждая итерация передиагностирует обновленную модель для запуска следующего раунда целевого улучшения. DPE включает два ключевых компонента. Во-первых, множественные агенты аннотируют и контролируют качество массивных немаркированных мультимодальных данных, используя такие инструменты, как веб-поиск и редактирование изображений, для создания разнообразных реалистичных образцов. Во-вторых, DPE относит сбои к конкретным слабостям, динамически корректирует смесь данных и направляет агентов на генерацию данных, сфокусированных на слабых местах, для целевого усиления. Эксперименты на моделях Qwen3-VL-8B-Instruct и Qwen2.5-VL-7B-Instruct показывают стабильный непрерывный рост результатов на одиннадцати бенчмарках, что указывает на DPE как на масштабируемую парадигму для непрерывного обучения LMM в условиях открытых распределений задач. Наш код, модели и данные общедоступны по адресу https://github.com/hongruijia/DPE.

English

As Large Multimodal Models (LMMs) scale up and reinforcement learning (RL) methods mature, LMMs have made notable progress in complex reasoning and decision making. Yet training still relies on static data and fixed recipes, making it difficult to diagnose capability blind spots or provide dynamic, targeted reinforcement. Motivated by findings that test driven error exposure and feedback based correction outperform repetitive practice, we propose Diagnostic-driven Progressive Evolution (DPE), a spiral loop where diagnosis steers data generation and reinforcement, and each iteration re-diagnoses the updated model to drive the next round of targeted improvement. DPE has two key components. First, multiple agents annotate and quality control massive unlabeled multimodal data, using tools such as web search and image editing to produce diverse, realistic samples. Second, DPE attributes failures to specific weaknesses, dynamically adjusts the data mixture, and guides agents to generate weakness focused data for targeted reinforcement. Experiments on Qwen3-VL-8B-Instruct and Qwen2.5-VL-7B-Instruct show stable, continual gains across eleven benchmarks, indicating DPE as a scalable paradigm for continual LMM training under open task distributions. Our code, models, and data are publicly available at https://github.com/hongruijia/DPE.

От слепых зон к прорывам: диагностически-ориентированное итеративное обучение больших мультимодальных моделей

From Blind Spots to Gains: Diagnostic-Driven Iterative Training for Large Multimodal Models

Аннотация

Support