ChatPaper.aiChatPaper

Decouple to Generalize: Apprendimento Auto-Evolutivo Basato sul Contesto per il Ragionamento Visivo-Linguistico con Dati Limitati

Decouple to Generalize: Context-First Self-Evolving Learning for Data-Scarce Vision-Language Reasoning

December 7, 2025
Autori: Tingyu Li, Zheng Sun, Jingxuan Wei, Siyuan Li, Conghui He, Lijun Wu, Cheng Tan
cs.AI

Abstract

I recenti modelli visione-linguaggio (VLM) ottengono prestazioni notevoli nel ragionamento attraverso l'apprendimento per rinforzo (RL), che fornisce una soluzione fattibile per realizzare grandi modelli visione-linguaggio (LVLM) auto-evolventi continui nell'era dell'esperienza. Tuttavia, l'RL per i VLM richiede dati multimodali abbondanti e di alta qualità, risultando particolarmente complesso in domini specialistici come la chimica, le scienze della terra e la matematica multimodale. Le strategie esistenti, come i dati sintetici e i meccanismi di auto-ricompensa, soffrono di distribuzioni limitate e difficoltà di allineamento, causando infine reward hacking: i modelli sfruttano pattern ad alta ricompensa, collassando l'entropia della policy e destabilizzando l'addestramento. Proponiamo DoGe (Decouple to Generalize), un framework a doppio disaccoppiamento che guida i modelli ad apprendere prima dal contesto piuttosto che dal problem solving, riportando l'attenzione sugli scenari contestuali del problema trascurati dai metodi con dati sintetici. Disaccoppiando il processo di apprendimento in due componenti (Thinker e Solver), quantifichiamo ragionevolmente i segnali di ricompensa di questo processo e proponiamo un approccio di post-addestramento RL in due fasi, dall'esplorazione libera del contesto alla risoluzione pratica dei compiti. In secondo luogo, per aumentare la diversità dei dati di addestramento, DoGe costruisce una pipeline evolutiva di curriculum learning: un corpus espanso di conoscenze del dominio nativo e un pool di problemi seme che evolve iterativamente. Gli esperimenti mostrano che il nostro metodo supera costantemente il baseline su vari benchmark, fornendo un percorso scalabile per realizzare LVLM auto-evolventi.
English
Recent vision-language models (VLMs) achieve remarkable reasoning through reinforcement learning (RL), which provides a feasible solution for realizing continuous self-evolving large vision-language models (LVLMs) in the era of experience. However, RL for VLMs requires abundant high-quality multimodal data, especially challenging in specialized domains like chemistry, earth sciences, and multimodal mathematics. Existing strategies such as synthetic data and self-rewarding mechanisms suffer from limited distributions and alignment difficulties, ultimately causing reward hacking: models exploit high-reward patterns, collapsing policy entropy and destabilizing training. We propose DoGe (Decouple to Generalize), a dual-decoupling framework that guides models to first learn from context rather than problem solving by refocusing on the problem context scenarios overlooked by synthetic data methods. By decoupling learning process into dual components (Thinker and Solver), we reasonably quantify the reward signals of this process and propose a two-stage RL post-training approach from freely exploring context to practically solving tasks. Second, to increase the diversity of training data, DoGe constructs an evolving curriculum learning pipeline: an expanded native domain knowledge corpus and an iteratively evolving seed problems pool. Experiments show that our method consistently outperforms the baseline across various benchmarks, providing a scalable pathway for realizing self-evolving LVLMs.
PDF32December 10, 2025