Отделение для обобщения: контекстно-ориентированное саморазвивающееся обучение для решения задач визуально-языкового вывода при ограниченных данных
Decouple to Generalize: Context-First Self-Evolving Learning for Data-Scarce Vision-Language Reasoning
December 7, 2025
Авторы: Tingyu Li, Zheng Sun, Jingxuan Wei, Siyuan Li, Conghui He, Lijun Wu, Cheng Tan
cs.AI
Аннотация
Современные визуально-языковые модели (VLM) демонстрируют выдающиеся способности к рассуждению благодаря обучению с подкреплением (RL), что предоставляет реализуемое решение для создания непрерывно саморазвивающихся больших визуально-языковых моделей (LVLM) в эпоху накопления опыта. Однако применение RL для VLM требует обилия высококачественных мультимодальных данных, что особенно сложно в специализированных областях, таких как химия, науки о Земле и мультимодальная математика. Существующие стратегии, включая синтетические данные и механизмы само-вознаграждения, страдают от ограниченного распределения и сложностей согласования, что в конечном итоге приводит к взлому вознаграждения: модели эксплуатируют высоко-вознаграждаемые шаблоны, коллапсируя энтропию политики и дестабилизируя обучение. Мы предлагаем DoGe (Decouple to Generalize) — дуально-разделяющий фреймворк, который направляет модели на первоначальное изучение контекста, а не на решение задач, путем перефокусировки на сценарии контекста проблемы, упускаемые методами синтетических данных. Разделяя процесс обучения на две компоненты (Мыслитель и Решатель), мы рационально квантифицируем сигналы вознаграждения этого процесса и предлагаем двухэтапный подход RL дообучения — от свободного исследования контекста к практическому решению задач. Во-вторых, для увеличения разнообразия обучающих данных DoGe конструирует эволюционирующий пайплайн учебного плана: расширенный корпус знаний исходной предметной области и итеративно развивающийся пул исходных задач. Эксперименты показывают, что наш метод стабильно превосходит базовый уровень на различных бенчмарках, предоставляя масштабируемый путь для реализации саморазвивающихся LVLM.
English
Recent vision-language models (VLMs) achieve remarkable reasoning through reinforcement learning (RL), which provides a feasible solution for realizing continuous self-evolving large vision-language models (LVLMs) in the era of experience. However, RL for VLMs requires abundant high-quality multimodal data, especially challenging in specialized domains like chemistry, earth sciences, and multimodal mathematics. Existing strategies such as synthetic data and self-rewarding mechanisms suffer from limited distributions and alignment difficulties, ultimately causing reward hacking: models exploit high-reward patterns, collapsing policy entropy and destabilizing training. We propose DoGe (Decouple to Generalize), a dual-decoupling framework that guides models to first learn from context rather than problem solving by refocusing on the problem context scenarios overlooked by synthetic data methods. By decoupling learning process into dual components (Thinker and Solver), we reasonably quantify the reward signals of this process and propose a two-stage RL post-training approach from freely exploring context to practically solving tasks. Second, to increase the diversity of training data, DoGe constructs an evolving curriculum learning pipeline: an expanded native domain knowledge corpus and an iteratively evolving seed problems pool. Experiments show that our method consistently outperforms the baseline across various benchmarks, providing a scalable pathway for realizing self-evolving LVLMs.