Von blinden Flecken zu Gewinnen: Diagnosegestütztes iteratives Training für große multimodale Modelle

Zusammenfassung

Während sich Large Multimodale Modelle (LMMs) hochskalieren und Methoden des Reinforcement Learning (RL) reifen, haben LMMs bedeutende Fortschritte im komplexen Schlussfolgern und Entscheidungsfinden erzielt. Das Training stützt sich jedoch nach wie vor auf statische Daten und feste Abläufe, was es schwierig macht, Fähigkeitslücken zu diagnostizieren oder eine dynamische, gezielte Verstärkung bereitzustellen. Angeregt durch die Erkenntnis, dass testgetriebene Fehlerexposition und feedbackbasierte Korrektur repetitives Üben übertreffen, schlagen wir Diagnostic-driven Progressive Evolution (DPE) vor – eine spiralförmige Schleife, in der die Diagnose die Datengenerierung und Verstärkung steuert und jede Iteration das aktualisierte Modell erneut diagnostiziert, um die nächste Runde gezielter Verbesserung anzutreiben. DPE hat zwei Schlüsselkomponenten. Erstens annotieren und kontrollieren mehrere Agenten die Qualität massiver ungelabelter multimodaler Daten und nutzen Werkzeuge wie Websuche und Bildbearbeitung, um vielfältige, realistische Beispiele zu erzeugen. Zweitens attributiert DPE Fehler spezifischen Schwächen, passt die Datenmischung dynamisch an und leitet Agenten an, schwächenfokussierte Daten für gezielte Verstärkung zu generieren. Experimente mit Qwen3-VL-8B-Instruct und Qwen2.5-VL-7B-Instruct zeigen stabile, kontinuierliche Verbesserungen über elf Benchmarks hinweg, was DPE als skalierbares Paradigma für kontinuierliches LMM-Training unter offenen Aufgabenverteilungen ausweist. Unser Code, Modelle und Daten sind öffentlich verfügbar unter https://github.com/hongruijia/DPE.

English

As Large Multimodal Models (LMMs) scale up and reinforcement learning (RL) methods mature, LMMs have made notable progress in complex reasoning and decision making. Yet training still relies on static data and fixed recipes, making it difficult to diagnose capability blind spots or provide dynamic, targeted reinforcement. Motivated by findings that test driven error exposure and feedback based correction outperform repetitive practice, we propose Diagnostic-driven Progressive Evolution (DPE), a spiral loop where diagnosis steers data generation and reinforcement, and each iteration re-diagnoses the updated model to drive the next round of targeted improvement. DPE has two key components. First, multiple agents annotate and quality control massive unlabeled multimodal data, using tools such as web search and image editing to produce diverse, realistic samples. Second, DPE attributes failures to specific weaknesses, dynamically adjusts the data mixture, and guides agents to generate weakness focused data for targeted reinforcement. Experiments on Qwen3-VL-8B-Instruct and Qwen2.5-VL-7B-Instruct show stable, continual gains across eleven benchmarks, indicating DPE as a scalable paradigm for continual LMM training under open task distributions. Our code, models, and data are publicly available at https://github.com/hongruijia/DPE.

Von blinden Flecken zu Gewinnen: Diagnosegestütztes iteratives Training für große multimodale Modelle

From Blind Spots to Gains: Diagnostic-Driven Iterative Training for Large Multimodal Models

Zusammenfassung

Support