눈먼 지점에서 이점으로: 대규모 멀티모달 모델을 위한 진단 기반 반복 훈련
From Blind Spots to Gains: Diagnostic-Driven Iterative Training for Large Multimodal Models
February 26, 2026
저자: Hongrui Jia, Chaoya Jiang, Shikun Zhang, Wei Ye
cs.AI
초록
대규모 멀티모달 모델(LMM)의 규모가 확대되고 강화학습(RL) 방법이 성숙됨에 따라, LMM은 복잡한 추론 및 의사 결정 영역에서 뚜렷한 진전을 보였습니다. 그러나 여전히 훈련은 정적 데이터와 고정된 레시피에 의존하여 능력의 사각지대를 진단하거나 동적이고 표적화된 강화를 제공하기 어렵습니다. 테스트 주도 오류 노출과 피드백 기반 수정이 반복적인 연습보다 우수하다는 연구 결과에 기반하여, 우리는 진단이 데이터 생성과 강화를 주도하고 각 반복에서 갱신된 모델을 재진단하여 다음 차례의 표적 개선을 이끄는 선순환 구조인 '진단 주도 점진적 진화(DPE)'를 제안합니다. DPE는 두 가지 핵심 구성 요소를 갖습니다. 첫째, 다중 에이전트가 웹 검색 및 이미지 편집과 같은 도구를 사용하여 방대한 레이블 없는 멀티모달 데이터에 주석을 달고 품질을 관리함으로써 다양하고 현실적인 샘플을 생성합니다. 둘째, DPE는 실패를 특정 약점으로 귀속시키고, 데이터 구성을 동적으로 조정하며, 에이전트가 표적 강화를 위해 약점 중심 데이터를 생성하도록 유도합니다. Qwen3-VL-8B-Instruct 및 Qwen2.5-VL-7B-Instruct에 대한 실험은 11개 벤치마크에서 안정적이고 지속적인 성능 향상을 보여주며, DPE가 개방형 작업 분포 하에서 지속적인 LMM 훈련을 위한 확장 가능한 패러다임임을 시사합니다. 우리의 코드, 모델 및 데이터는 https://github.com/hongruijia/DPE에서 공개되어 있습니다.
English
As Large Multimodal Models (LMMs) scale up and reinforcement learning (RL) methods mature, LMMs have made notable progress in complex reasoning and decision making. Yet training still relies on static data and fixed recipes, making it difficult to diagnose capability blind spots or provide dynamic, targeted reinforcement. Motivated by findings that test driven error exposure and feedback based correction outperform repetitive practice, we propose Diagnostic-driven Progressive Evolution (DPE), a spiral loop where diagnosis steers data generation and reinforcement, and each iteration re-diagnoses the updated model to drive the next round of targeted improvement. DPE has two key components. First, multiple agents annotate and quality control massive unlabeled multimodal data, using tools such as web search and image editing to produce diverse, realistic samples. Second, DPE attributes failures to specific weaknesses, dynamically adjusts the data mixture, and guides agents to generate weakness focused data for targeted reinforcement. Experiments on Qwen3-VL-8B-Instruct and Qwen2.5-VL-7B-Instruct show stable, continual gains across eleven benchmarks, indicating DPE as a scalable paradigm for continual LMM training under open task distributions. Our code, models, and data are publicly available at https://github.com/hongruijia/DPE.