De los puntos ciegos a las ganancias: Entrenamiento iterativo basado en diagnóstico para modelos multimodales grandes

Resumen

A medida que los Modelos Multimodales Grandes (LMMs) escalan y los métodos de aprendizaje por refuerzo (RL) maduran, los LMMs han logrado avances notables en razonamiento complejo y toma de decisiones. Sin embargo, el entrenamiento aún depende de datos estáticos y recetas fijas, lo que dificulta diagnosticar puntos ciegos de capacidad o proporcionar un refuerzo dinámico y específico. Motivados por los hallazgos de que la exposición a errores basada en pruebas y la corrección mediante retroalimentación superan a la práctica repetitiva, proponemos la Evolución Progresiva Guiada por Diagnóstico (DPE), un bucle en espiral donde el diagnóstico dirige la generación de datos y el refuerzo, y cada iteración rediagnostica el modelo actualizado para impulsar la siguiente ronda de mejora específica. DPE tiene dos componentes clave. Primero, múltiples agentes anotan y controlan la calidad de grandes volúmenes de datos multimodales no etiquetados, utilizando herramientas como búsqueda web y edición de imágenes para producir muestras diversas y realistas. Segundo, DPE atribuye los fallos a debilidades específicas, ajusta dinámicamente la mezcla de datos y guía a los agentes para generar datos centrados en las debilidades para un refuerzo dirigido. Los experimentos en Qwen3-VL-8B-Instruct y Qwen2.5-VL-7B-Instruct muestran ganancias estables y continuas en once benchmarks, lo que indica que DPE es un paradigma escalable para el entrenamiento continuo de LMMs bajo distribuciones de tareas abiertas. Nuestro código, modelos y datos están disponibles públicamente en https://github.com/hongruijia/DPE.

English

As Large Multimodal Models (LMMs) scale up and reinforcement learning (RL) methods mature, LMMs have made notable progress in complex reasoning and decision making. Yet training still relies on static data and fixed recipes, making it difficult to diagnose capability blind spots or provide dynamic, targeted reinforcement. Motivated by findings that test driven error exposure and feedback based correction outperform repetitive practice, we propose Diagnostic-driven Progressive Evolution (DPE), a spiral loop where diagnosis steers data generation and reinforcement, and each iteration re-diagnoses the updated model to drive the next round of targeted improvement. DPE has two key components. First, multiple agents annotate and quality control massive unlabeled multimodal data, using tools such as web search and image editing to produce diverse, realistic samples. Second, DPE attributes failures to specific weaknesses, dynamically adjusts the data mixture, and guides agents to generate weakness focused data for targeted reinforcement. Experiments on Qwen3-VL-8B-Instruct and Qwen2.5-VL-7B-Instruct show stable, continual gains across eleven benchmarks, indicating DPE as a scalable paradigm for continual LMM training under open task distributions. Our code, models, and data are publicly available at https://github.com/hongruijia/DPE.

De los puntos ciegos a las ganancias: Entrenamiento iterativo basado en diagnóstico para modelos multimodales grandes

From Blind Spots to Gains: Diagnostic-Driven Iterative Training for Large Multimodal Models

Resumen

Support