Desacoplar para Generalizar: Aprendizaje Auto-Evolutivo con Prioridad Contextual para el Razonamiento Visión-Lenguaje con Datos Escasos
Decouple to Generalize: Context-First Self-Evolving Learning for Data-Scarce Vision-Language Reasoning
December 7, 2025
Autores: Tingyu Li, Zheng Sun, Jingxuan Wei, Siyuan Li, Conghui He, Lijun Wu, Cheng Tan
cs.AI
Resumen
Los modelos recientes de visión y lenguaje (VLMs) logran capacidades de razonamiento notables mediante el aprendizaje por refuerzo (RL), lo que proporciona una solución viable para materializar modelos grandes de visión y lenguaje (LVLMs) de auto-evolución continua en la era de la experiencia. Sin embargo, el RL para VLMs requiere abundantes datos multimodales de alta calidad, un reto especialmente difícil en dominios especializados como la química, las ciencias de la tierra y las matemáticas multimodales. Estrategias existentes, como los datos sintéticos y los mecanismos de auto-recompensa, adolecen de distribuciones limitadas y dificultades de alineación, lo que finalmente provoca *reward hacking*: los modelos explotan patrones de alta recompensa, colapsando la entropía de la política y desestabilizando el entrenamiento. Proponemos DoGe (Decouple to Generalize), un marco de doble desacoplamiento que guía a los modelos a aprender primero del contexto en lugar de la resolución de problemas, reenfocándose en los escenarios contextuales de los problemas pasados por alto por los métodos de datos sintéticos. Al desacoplar el proceso de aprendizaje en dos componentes (Thinker y Solver), cuantificamos razonablemente las señales de recompensa de este proceso y proponemos un enfoque de post-entrenamiento RL en dos etapas, que va desde la exploración libre del contexto hasta la resolución práctica de tareas. En segundo lugar, para aumentar la diversidad de los datos de entrenamiento, DoGe construye un pipeline evolutivo de aprendizaje curricular: un corpus expandido de conocimiento del dominio nativo y un banco de problemas semilla de evolución iterativa. Los experimentos demuestran que nuestro método supera consistentemente a la línea base en varios benchmarks, ofreciendo una vía escalable para materializar LVLMs auto-evolutivos.
English
Recent vision-language models (VLMs) achieve remarkable reasoning through reinforcement learning (RL), which provides a feasible solution for realizing continuous self-evolving large vision-language models (LVLMs) in the era of experience. However, RL for VLMs requires abundant high-quality multimodal data, especially challenging in specialized domains like chemistry, earth sciences, and multimodal mathematics. Existing strategies such as synthetic data and self-rewarding mechanisms suffer from limited distributions and alignment difficulties, ultimately causing reward hacking: models exploit high-reward patterns, collapsing policy entropy and destabilizing training. We propose DoGe (Decouple to Generalize), a dual-decoupling framework that guides models to first learn from context rather than problem solving by refocusing on the problem context scenarios overlooked by synthetic data methods. By decoupling learning process into dual components (Thinker and Solver), we reasonably quantify the reward signals of this process and propose a two-stage RL post-training approach from freely exploring context to practically solving tasks. Second, to increase the diversity of training data, DoGe constructs an evolving curriculum learning pipeline: an expanded native domain knowledge corpus and an iteratively evolving seed problems pool. Experiments show that our method consistently outperforms the baseline across various benchmarks, providing a scalable pathway for realizing self-evolving LVLMs.