Ontkoppelen om te Generaliseren: Context-Eerst Zelf-Evoluerend Leren voor Visueel-Taalredeneren met Schaarse Data
Decouple to Generalize: Context-First Self-Evolving Learning for Data-Scarce Vision-Language Reasoning
December 7, 2025
Auteurs: Tingyu Li, Zheng Sun, Jingxuan Wei, Siyuan Li, Conghui He, Lijun Wu, Cheng Tan
cs.AI
Samenvatting
Recente vision-language modellen (VLMs) bereiken opmerkelijke redeneerprestaties door reinforcement learning (RL), wat een haalbare oplossing biedt voor het realiseren van continu zelf-evoluerende large vision-language modellen (LVLMs) in het tijdperk van ervaring. Echter vereist RL voor VLMs overvloedige hoogwaardige multimodale data, wat bijzonder uitdagend is in gespecialiseerde domeinen zoals chemie, aardwetenschappen en multimodale wiskunde. Bestaande strategieën zoals synthetische data en zelf-belonende mechanismen kampen met beperkte distributies en aligneringsproblemen, wat uiteindelijk leidt tot reward hacking: modellen misbruiken hoogbelonende patronen, waardoor de entropie van het beleid instort en de training destabiliseert. Wij stellen DoGe (Decouple to Generalize) voor, een dual-decoupling raamwerk dat modellen leert eerst uit context te leren in plaats van problemen op te lossen door de focus te verleggen naar de probleemcontextscenario's die door synthetische datamethoden over het hoofd worden gezien. Door het leerproces te ontkoppelen in dubbele componenten (Denker en Oplosser), kwantificeren wij op zinvolle wijze de beloningssignalen van dit proces en stellen een tweefasen RL-na-training benadering voor, van vrij context verkennen tot praktische taakoplossing. Ten tweede, om de diversiteit van trainingsdata te vergroten, construeert DoGe een evoluerende curriculum learning pijplijn: een uitgebreid corpus van native domeinkennis en een iteratief evoluerende pool van startproblemen. Experimenten tonen aan dat onze methode consistent de baseline overtreft op diverse benchmarks, en biedt zo een schaalbare route voor het realiseren van zelf-evoluerende LVLMs.
English
Recent vision-language models (VLMs) achieve remarkable reasoning through reinforcement learning (RL), which provides a feasible solution for realizing continuous self-evolving large vision-language models (LVLMs) in the era of experience. However, RL for VLMs requires abundant high-quality multimodal data, especially challenging in specialized domains like chemistry, earth sciences, and multimodal mathematics. Existing strategies such as synthetic data and self-rewarding mechanisms suffer from limited distributions and alignment difficulties, ultimately causing reward hacking: models exploit high-reward patterns, collapsing policy entropy and destabilizing training. We propose DoGe (Decouple to Generalize), a dual-decoupling framework that guides models to first learn from context rather than problem solving by refocusing on the problem context scenarios overlooked by synthetic data methods. By decoupling learning process into dual components (Thinker and Solver), we reasonably quantify the reward signals of this process and propose a two-stage RL post-training approach from freely exploring context to practically solving tasks. Second, to increase the diversity of training data, DoGe constructs an evolving curriculum learning pipeline: an expanded native domain knowledge corpus and an iteratively evolving seed problems pool. Experiments show that our method consistently outperforms the baseline across various benchmarks, providing a scalable pathway for realizing self-evolving LVLMs.