Dalle Zone d'Ombra ai Progressi: Addestramento Iterativo Guidato dalla Diagnostica per i Grandi Modelli Multimediali

Abstract

Man mano che i Large Multimodal Models (LMM) aumentano di scala e i metodi di apprendimento per rinforzo (RL) maturano, gli LMM hanno compiuto progressi significativi nel ragionamento complesso e nella presa di decisioni. Tuttavia, l'addestramento si basa ancora su dati statici e protocolli fissi, rendendo difficile diagnosticare punti ciechi nelle capacità o fornire un rinforzo dinamico e mirato. Sulla scia dei risultati che dimostrano come l'esposizione agli errori guidata da test e la correzione basata sul feedback superino la pratica ripetitiva, proponiamo la Diagnostic-driven Progressive Evolution (DPE), un ciclo a spirale in cui la diagnosi orienta la generazione dei dati e il rinforzo, e ogni iterazione ridefinisce la diagnosi sul modello aggiornato per guidare il round successivo di miglioramento mirato. DPE ha due componenti chiave. Primo, molteplici agenti annotano e controllano la qualità di enormi quantità di dati multimodali non etichettati, utilizzando strumenti come la ricerca web e l'editing di immagini per produrre campioni diversificati e realistici. Secondo, DPE attribuisce i fallimenti a specifiche debolezze, aggiusta dinamicamente il mix di dati e guida gli agenti a generare dati focalizzati sulle debolezze per un rinforzo mirato. Esperimenti condotti su Qwen3-VL-8B-Instruct e Qwen2.5-VL-7B-Instruct mostrano miglioramenti stabili e continui su undici benchmark, indicando che DPE è un paradigma scalabile per l'addestramento continuo di LMM sotto distribuzioni di compiti aperte. Il nostro codice, modelli e dati sono pubblicamente disponibili all'indirizzo https://github.com/hongruijia/DPE.

English

As Large Multimodal Models (LMMs) scale up and reinforcement learning (RL) methods mature, LMMs have made notable progress in complex reasoning and decision making. Yet training still relies on static data and fixed recipes, making it difficult to diagnose capability blind spots or provide dynamic, targeted reinforcement. Motivated by findings that test driven error exposure and feedback based correction outperform repetitive practice, we propose Diagnostic-driven Progressive Evolution (DPE), a spiral loop where diagnosis steers data generation and reinforcement, and each iteration re-diagnoses the updated model to drive the next round of targeted improvement. DPE has two key components. First, multiple agents annotate and quality control massive unlabeled multimodal data, using tools such as web search and image editing to produce diverse, realistic samples. Second, DPE attributes failures to specific weaknesses, dynamically adjusts the data mixture, and guides agents to generate weakness focused data for targeted reinforcement. Experiments on Qwen3-VL-8B-Instruct and Qwen2.5-VL-7B-Instruct show stable, continual gains across eleven benchmarks, indicating DPE as a scalable paradigm for continual LMM training under open task distributions. Our code, models, and data are publicly available at https://github.com/hongruijia/DPE.

Dalle Zone d'Ombra ai Progressi: Addestramento Iterativo Guidato dalla Diagnostica per i Grandi Modelli Multimediali

From Blind Spots to Gains: Diagnostic-Driven Iterative Training for Large Multimodal Models

Abstract

Support