Van blinde vlekken naar winst: Diagnostisch-gestuurd iteratief trainen voor grote multimodale modellen

Samenvatting

Naarmate Large Multimodale Modellen (LMM's) schalen en methoden voor reinforcement learning (RL) volwassener worden, hebben LMM's aanzienlijke vooruitgang geboekt in complex redeneren en besluitvorming. Toch blijft de training steunen op statische data en vaste recepten, wat het moeilijk maakt om blinde vlekken in capaciteiten te diagnosticeren of dynamische, gerichte versterking te bieden. Gemotiveerd door bevindingen dat testgedreven blootstelling aan fouten en correctie op basis van feedback repetitieve oefening overtreffen, stellen we Diagnostic-driven Progressive Evolution (DPE) voor: een spiraalvormige lus waarin diagnose de datageneratie en -versterking stuurt, en elke iteratie het bijgewerkte model opnieuw diagnosticeert om de volgende ronde van gerichte verbetering aan te drijven. DPE heeft twee kernelementen. Ten eerste annoteren meerdere agenten enorme hoeveelheden ongelabelde multimodale data en voeren ze kwaliteitscontrole uit, waarbij ze tools zoals zoeken op het web en beeldbewerking gebruiken om diverse, realistische samples te produceren. Ten tweede schrijft DPE fouten toe aan specifieke zwaktes, past het datamengsel dynamisch aan en stuurt het agenten aan om data te genereren die gericht is op deze zwaktes voor gerichte versterking. Experimenten met Qwen3-VL-8B-Instruct en Qwen2.5-VL-7B-Instruct tonen stabiele, voortdurende verbeteringen aan over elf benchmarks, wat aangeeft dat DPE een schaalbaar paradigma is voor continue LMM-training onder open taakverdelingen. Onze code, modellen en data zijn openbaar beschikbaar op https://github.com/hongruijia/DPE.

English

As Large Multimodal Models (LMMs) scale up and reinforcement learning (RL) methods mature, LMMs have made notable progress in complex reasoning and decision making. Yet training still relies on static data and fixed recipes, making it difficult to diagnose capability blind spots or provide dynamic, targeted reinforcement. Motivated by findings that test driven error exposure and feedback based correction outperform repetitive practice, we propose Diagnostic-driven Progressive Evolution (DPE), a spiral loop where diagnosis steers data generation and reinforcement, and each iteration re-diagnoses the updated model to drive the next round of targeted improvement. DPE has two key components. First, multiple agents annotate and quality control massive unlabeled multimodal data, using tools such as web search and image editing to produce diverse, realistic samples. Second, DPE attributes failures to specific weaknesses, dynamically adjusts the data mixture, and guides agents to generate weakness focused data for targeted reinforcement. Experiments on Qwen3-VL-8B-Instruct and Qwen2.5-VL-7B-Instruct show stable, continual gains across eleven benchmarks, indicating DPE as a scalable paradigm for continual LMM training under open task distributions. Our code, models, and data are publicly available at https://github.com/hongruijia/DPE.

Van blinde vlekken naar winst: Diagnostisch-gestuurd iteratief trainen voor grote multimodale modellen

From Blind Spots to Gains: Diagnostic-Driven Iterative Training for Large Multimodal Models

Samenvatting

Support