Entkoppeln, um zu generalisieren: Kontext-zuerst selbstentwickelndes Lernen für datenarme visuell-sprachliche Reasoning-Aufgaben
Decouple to Generalize: Context-First Self-Evolving Learning for Data-Scarce Vision-Language Reasoning
December 7, 2025
papers.authors: Tingyu Li, Zheng Sun, Jingxuan Wei, Siyuan Li, Conghui He, Lijun Wu, Cheng Tan
cs.AI
papers.abstract
Aktuelle visuell-sprachliche Modelle (VLMs) erzielen bemerkenswerte Reasoning-Fähigkeiten durch Reinforcement Learning (RL), was eine praktikable Lösung zur Realisierung kontinuierlich selbst-evolvierender großer visuell-sprachlicher Modelle (LVLMs) im Zeitalter der Erfahrung darstellt. Die Anwendung von RL auf VLMs erfordert jedoch umfangreiche hochwertige multimodale Daten, was besonders in spezialisierten Domänen wie Chemie, Geowissenschaften und multimodaler Mathematik eine Herausforderung darstellt. Bestehende Strategien wie synthetische Daten und Self-Rewarding-Mechanismen leiden unter eingeschränkten Verteilungen und Alignment-Schwierigkeiten, was letztlich zu Reward Hacking führt: Modelle nutzen hochbelohnte Muster aus, was die Policy-Entropie kollabieren und das Training destabilisieren lässt. Wir schlagen DoGe (Decouple to Generalize) vor, ein Dual-Decoupling-Framework, das Modelle anleitet, zunächst aus dem Kontext zu lernen statt durch Problemlösung, indem der Fokus auf die von synthetischen Datenmethoden vernachlässigten Problemszenarien im Kontext neu ausgerichtet wird. Durch Entkopplung des Lernprozesses in zwei Komponenten (Denker und Löser) quantifizieren wir die Reward-Signale dieses Prozesses sinnvoll und schlagen einen zweistufigen RL-Nachtraining-Ansatz vor – vom freien Erkunden des Kontexts bis zur praktischen Aufgabelösung. Zweitens konstruiert DoGe zur Erhöhung der Trainingsdatendiversität eine Pipeline für evolvierendes Curriculum Learning: ein erweitertes natives Domänenwissenskorpus und einen iterativ evolvierenden Pool von Ausgangsproblemen. Experimente zeigen, dass unsere Methode durchgängig die Baseline auf verschiedenen Benchmarks übertrifft und einen skalierbaren Weg zur Realisierung selbst-evolvierender LVLMs bietet.
English
Recent vision-language models (VLMs) achieve remarkable reasoning through reinforcement learning (RL), which provides a feasible solution for realizing continuous self-evolving large vision-language models (LVLMs) in the era of experience. However, RL for VLMs requires abundant high-quality multimodal data, especially challenging in specialized domains like chemistry, earth sciences, and multimodal mathematics. Existing strategies such as synthetic data and self-rewarding mechanisms suffer from limited distributions and alignment difficulties, ultimately causing reward hacking: models exploit high-reward patterns, collapsing policy entropy and destabilizing training. We propose DoGe (Decouple to Generalize), a dual-decoupling framework that guides models to first learn from context rather than problem solving by refocusing on the problem context scenarios overlooked by synthetic data methods. By decoupling learning process into dual components (Thinker and Solver), we reasonably quantify the reward signals of this process and propose a two-stage RL post-training approach from freely exploring context to practically solving tasks. Second, to increase the diversity of training data, DoGe constructs an evolving curriculum learning pipeline: an expanded native domain knowledge corpus and an iteratively evolving seed problems pool. Experiments show that our method consistently outperforms the baseline across various benchmarks, providing a scalable pathway for realizing self-evolving LVLMs.