일반화를 위한 분리: 데이터 부족 시각-언어 추론을 위한 맥락 우선 자기 진화 학습
Decouple to Generalize: Context-First Self-Evolving Learning for Data-Scarce Vision-Language Reasoning
December 7, 2025
저자: Tingyu Li, Zheng Sun, Jingxuan Wei, Siyuan Li, Conghui He, Lijun Wu, Cheng Tan
cs.AI
초록
최근 시각-언어 모델(VLM)은 강화 학습(RL)을 통해 놀라운 추론 능력을 달성하며, 경험 시대에 지속적 자기 진화 대형 시각-언어 모델(LVLM)을 실현할 수 있는 실행 가능한 솔루션을 제공합니다. 그러나 VLM을 위한 RL은 풍부한 고품질 다중모드 데이터를 필요로 하며, 특히 화학, 지구 과학, 다중모드 수학과 같은 전문 분야에서는 매우 어려운 과제입니다. 합성 데이터 및 자기 보상 메커니즘과 같은 기존 전략은 제한된 분포와 정렬 어려움으로 인해 결국 보상 해킹(reward hacking)을 초래합니다. 즉, 모델이 높은 보상 패턴을 악용하여 정책 엔트로피가 붕괴되고 훈련이 불안정해집니다. 우리는 DoGe(Decouple to Generalize)를 제안합니다. 이는 이중 분리 프레임워크로, 합성 데이터 방법이 간과한 문제 맥락 시나리오에 다시 주목함으로써 모델이 문제 해결보다 먼저 맥락에서 학습하도록 유도합니다. 학습 과정을 이중 구성 요소(Thinker와 Solver)로 분리함으로써 이 과정의 보상 신호를 합리적으로 정량화하고, 자유로운 맥락 탐색에서 실질적인 과제 해결에 이르는 2단계 RL 사후 훈련 접근법을 제안합니다. 둘째, 훈련 데이터의 다양성을 높이기 위해 DoGe는 진화하는 커리큘럼 학습 파이프라인, 즉 확장된 기본 도메인 지식 코퍼스와 반복적으로 진화하는 시드 문제 풀을 구축합니다. 실험 결과, 우리의 방법은 다양한 벤치마크에서 기준선을 꾸준히 능가하며, 자기 진화 LVLM을 실현하기 위한 확장 가능한 경로를 제공합니다.
English
Recent vision-language models (VLMs) achieve remarkable reasoning through reinforcement learning (RL), which provides a feasible solution for realizing continuous self-evolving large vision-language models (LVLMs) in the era of experience. However, RL for VLMs requires abundant high-quality multimodal data, especially challenging in specialized domains like chemistry, earth sciences, and multimodal mathematics. Existing strategies such as synthetic data and self-rewarding mechanisms suffer from limited distributions and alignment difficulties, ultimately causing reward hacking: models exploit high-reward patterns, collapsing policy entropy and destabilizing training. We propose DoGe (Decouple to Generalize), a dual-decoupling framework that guides models to first learn from context rather than problem solving by refocusing on the problem context scenarios overlooked by synthetic data methods. By decoupling learning process into dual components (Thinker and Solver), we reasonably quantify the reward signals of this process and propose a two-stage RL post-training approach from freely exploring context to practically solving tasks. Second, to increase the diversity of training data, DoGe constructs an evolving curriculum learning pipeline: an expanded native domain knowledge corpus and an iteratively evolving seed problems pool. Experiments show that our method consistently outperforms the baseline across various benchmarks, providing a scalable pathway for realizing self-evolving LVLMs.