Des angles morts aux gains : Entraînement itératif guidé par le diagnostic pour les grands modèles multimodaux

Résumé

Alors que les modèles multimodaux de grande taille (LMM) augmentent en échelle et que les méthodes d'apprentissage par renforcement (RL) gagnent en maturité, les LMM ont réalisé des progrès notables en raisonnement complexe et en prise de décision. Pourtant, l'entraînement repose toujours sur des données statiques et des procédures figées, rendant difficile le diagnostic des angles morts capacitatifs ou la fourniture d'un renforcement dynamique et ciblé. Motivés par les résultats montrant que l'exposition aux erreurs via des tests et la correction par feedback surpassent la pratique répétitive, nous proposons l'Évolution Progressive par Diagnostic (DPE), une boucle spiralaire où le diagnostic oriente la génération de données et le renforcement, chaque itération rediagnostiquant le modèle mis à jour pour piloter le cycle suivant d'amélioration ciblée. DPE comporte deux composants clés. Premièrement, plusieurs agents annotent et contrôlent la qualité de masses de données multimodales non labellisées, utilisant des outils tels que la recherche web et l'édition d'images pour produire des échantillons diversifiés et réalistes. Deuxièmement, DPE attribue les échecs à des faiblesses spécifiques, ajuste dynamiquement le mélange de données et guide les agents pour générer des données ciblant ces faiblesses en vue d'un renforcement précis. Les expériences menées sur Qwen3-VL-8B-Instruct et Qwen2.5-VL-7B-Instruct montrent des gains stables et continus sur onze benchmarks, indiquant que DPE constitue un paradigme évolutif pour l'entraînement continu des LMM dans des distributions de tâches ouvertes. Notre code, modèles et données sont publics à l'adresse https://github.com/hongruijia/DPE.

English

As Large Multimodal Models (LMMs) scale up and reinforcement learning (RL) methods mature, LMMs have made notable progress in complex reasoning and decision making. Yet training still relies on static data and fixed recipes, making it difficult to diagnose capability blind spots or provide dynamic, targeted reinforcement. Motivated by findings that test driven error exposure and feedback based correction outperform repetitive practice, we propose Diagnostic-driven Progressive Evolution (DPE), a spiral loop where diagnosis steers data generation and reinforcement, and each iteration re-diagnoses the updated model to drive the next round of targeted improvement. DPE has two key components. First, multiple agents annotate and quality control massive unlabeled multimodal data, using tools such as web search and image editing to produce diverse, realistic samples. Second, DPE attributes failures to specific weaknesses, dynamically adjusts the data mixture, and guides agents to generate weakness focused data for targeted reinforcement. Experiments on Qwen3-VL-8B-Instruct and Qwen2.5-VL-7B-Instruct show stable, continual gains across eleven benchmarks, indicating DPE as a scalable paradigm for continual LMM training under open task distributions. Our code, models, and data are publicly available at https://github.com/hongruijia/DPE.

Des angles morts aux gains : Entraînement itératif guidé par le diagnostic pour les grands modèles multimodaux

From Blind Spots to Gains: Diagnostic-Driven Iterative Training for Large Multimodal Models

Résumé

Support