De Pontos Cegos a Ganhos: Treinamento Iterativo Orientado por Diagnóstico para Grandes Modelos Multimodais

Resumo

Com o aumento de escala dos Modelos Multimodais de Grande Porte (LMMs) e a maturação dos métodos de aprendizagem por reforço (RL), os LMMs têm registado progressos notáveis no raciocínio complexo e na tomada de decisões. No entanto, o treino ainda depende de dados estáticos e de receitas fixas, dificultando o diagnóstico de pontos cegos de capacidade ou o fornecimento de reforço dinâmico e direcionado. Motivados pela descoberta de que a exposição a erros orientada por testes e a correção baseada em *feedback* superam a prática repetitiva, propomos a Evolução Progressiva Orientada por Diagnóstico (DPE), um ciclo espiral em que o diagnóstico orienta a geração de dados e o reforço, e cada iteração reavalia o modelo atualizado para orientar a próxima ronda de melhoria direcionada. O DPE tem dois componentes-chave. Primeiro, múltiplos agentes anotam e controlam a qualidade de grandes volumes de dados multimodais não rotulados, utilizando ferramentas como pesquisa na Web e edição de imagem para produzir amostras diversificadas e realistas. Segundo, o DPE atribui falhas a fraquezas específicas, ajusta dinamicamente a mistura de dados e orienta os agentes a gerar dados focados nas fraquezas para um reforço direcionado. Experiências realizadas com os modelos Qwen3-VL-8B-Instruct e Qwen2.5-VL-7B-Instruct mostram ganhos estáveis e contínuos em onze *benchmarks*, indicando que o DPE é um paradigma escalável para o treino contínuo de LMMs sob distribuições abertas de tarefas. O nosso código, modelos e dados estão publicamente disponíveis em https://github.com/hongruijia/DPE.

English

As Large Multimodal Models (LMMs) scale up and reinforcement learning (RL) methods mature, LMMs have made notable progress in complex reasoning and decision making. Yet training still relies on static data and fixed recipes, making it difficult to diagnose capability blind spots or provide dynamic, targeted reinforcement. Motivated by findings that test driven error exposure and feedback based correction outperform repetitive practice, we propose Diagnostic-driven Progressive Evolution (DPE), a spiral loop where diagnosis steers data generation and reinforcement, and each iteration re-diagnoses the updated model to drive the next round of targeted improvement. DPE has two key components. First, multiple agents annotate and quality control massive unlabeled multimodal data, using tools such as web search and image editing to produce diverse, realistic samples. Second, DPE attributes failures to specific weaknesses, dynamically adjusts the data mixture, and guides agents to generate weakness focused data for targeted reinforcement. Experiments on Qwen3-VL-8B-Instruct and Qwen2.5-VL-7B-Instruct show stable, continual gains across eleven benchmarks, indicating DPE as a scalable paradigm for continual LMM training under open task distributions. Our code, models, and data are publicly available at https://github.com/hongruijia/DPE.

De Pontos Cegos a Ganhos: Treinamento Iterativo Orientado por Diagnóstico para Grandes Modelos Multimodais

From Blind Spots to Gains: Diagnostic-Driven Iterative Training for Large Multimodal Models

Resumo

Support