ChatPaper.aiChatPaper

Découpler pour généraliser : Apprentissage auto-évolutif priorisant le contexte pour le raisonnement vision-langage en situation de rareté de données

Decouple to Generalize: Context-First Self-Evolving Learning for Data-Scarce Vision-Language Reasoning

December 7, 2025
papers.authors: Tingyu Li, Zheng Sun, Jingxuan Wei, Siyuan Li, Conghui He, Lijun Wu, Cheng Tan
cs.AI

papers.abstract

Les modèles vision-langage (VLM) récents atteignent des capacités de raisonnement remarquables grâce à l'apprentissage par renforcement (RL), offrant une solution viable pour réaliser des grands modèles vision-langage (LVLM) à évolution continue à l'ère de l'expérience. Cependant, le RL pour les VLM nécessite d'abondantes données multimodales de haute qualité, ce qui s'avère particulièrement difficile dans des domaines spécialisés comme la chimie, les sciences de la Terre et les mathématiques multimodales. Les stratégies existantes, telles que les données synthétiques et les mécanismes d'auto-récompense, souffrent de distributions limitées et de difficultés d'alignement, conduisant finalement au détournement de récompense : les modèles exploitent des motifs à forte récompense, effondrant l'entropie de la politique et déstabilisant l'entraînement. Nous proposons DoGe (Découpler pour Généraliser), un cadre à double découplage qui guide les modèles à apprendre d'abord du contexte plutôt qu'à résoudre des problèmes en se recentrant sur les scénarios contextuels négligés par les méthodes à données synthétiques. En découplant le processus d'apprentissage en deux composantes (Penseur et Solveur), nous quantifions raisonnablement les signaux de récompense de ce processus et proposons une approche de post-entraînement RL en deux étapes, allant de l'exploration libre du contexte à la résolution pratique des tâches. Deuxièmement, pour augmenter la diversité des données d'entraînement, DoGe construit un pipeline évolutif d'apprentissage curriculaire : un corpus étendu de connaissances du domaine natif et un pool de problèmes sources à évolution itérative. Les expériences montrent que notre méthode surpasse constamment la baseline sur divers benchmarks, offrant une voie évolutive pour réaliser des LVLM auto-évolutifs.
English
Recent vision-language models (VLMs) achieve remarkable reasoning through reinforcement learning (RL), which provides a feasible solution for realizing continuous self-evolving large vision-language models (LVLMs) in the era of experience. However, RL for VLMs requires abundant high-quality multimodal data, especially challenging in specialized domains like chemistry, earth sciences, and multimodal mathematics. Existing strategies such as synthetic data and self-rewarding mechanisms suffer from limited distributions and alignment difficulties, ultimately causing reward hacking: models exploit high-reward patterns, collapsing policy entropy and destabilizing training. We propose DoGe (Decouple to Generalize), a dual-decoupling framework that guides models to first learn from context rather than problem solving by refocusing on the problem context scenarios overlooked by synthetic data methods. By decoupling learning process into dual components (Thinker and Solver), we reasonably quantify the reward signals of this process and propose a two-stage RL post-training approach from freely exploring context to practically solving tasks. Second, to increase the diversity of training data, DoGe constructs an evolving curriculum learning pipeline: an expanded native domain knowledge corpus and an iteratively evolving seed problems pool. Experiments show that our method consistently outperforms the baseline across various benchmarks, providing a scalable pathway for realizing self-evolving LVLMs.
PDF32December 10, 2025