Desacoplar para Generalizar: Aprendizado Autoevolutivo com Prioridade no Contexto para Raciocínio Visiolinguístico com Dados Escassos

Resumo

Os modelos visuo-linguísticos (VLMs) recentes alcançam raciocínio notável através de aprendizagem por reforço (RL), o que fornece uma solução viável para realizar grandes modelos visuo-linguísticos (LVLMs) de auto-evolução contínua na era da experiência. No entanto, a RL para VLMs requer dados multimodais abundantes e de alta qualidade, especialmente desafiador em domínios especializados como química, ciências da terra e matemática multimodal. Estratégias existentes, como dados sintéticos e mecanismos de auto-recompensa, sofrem com distribuições limitadas e dificuldades de alinhamento, causando, por fim, *reward hacking*: os modelos exploram padrões de alta recompensa, colapsando a entropia da política e desestabilizando o treinamento. Propomos o DoGe (Decouple to Generalize), uma estrutura de dupla desacoplamento que orienta os modelos a aprender primeiro com o contexto, em vez de resolver problemas, redirecionando o foco para os cenários contextuais do problema negligenciados pelos métodos de dados sintéticos. Ao desacoplar o processo de aprendizagem em dois componentes (Pensador e Solucionador), quantificamos racionalmente os sinais de recompensa desse processo e propomos uma abordagem de pós-treinamento por RL em dois estágios, desde a exploração livre do contexto até a resolução prática de tarefas. Em segundo lugar, para aumentar a diversidade dos dados de treino, o DoGe constrói um *pipeline* evolutivo de aprendizagem por currículo: um corpus expandido de conhecimento do domínio nativo e um conjunto de problemas-semente em evolução iterativa. Experiências mostram que o nosso método supera consistentemente a linha de base em vários *benchmarks*, fornecendo um caminho escalável para realizar LVLMs auto-evolutivos.

English

Recent vision-language models (VLMs) achieve remarkable reasoning through reinforcement learning (RL), which provides a feasible solution for realizing continuous self-evolving large vision-language models (LVLMs) in the era of experience. However, RL for VLMs requires abundant high-quality multimodal data, especially challenging in specialized domains like chemistry, earth sciences, and multimodal mathematics. Existing strategies such as synthetic data and self-rewarding mechanisms suffer from limited distributions and alignment difficulties, ultimately causing reward hacking: models exploit high-reward patterns, collapsing policy entropy and destabilizing training. We propose DoGe (Decouple to Generalize), a dual-decoupling framework that guides models to first learn from context rather than problem solving by refocusing on the problem context scenarios overlooked by synthetic data methods. By decoupling learning process into dual components (Thinker and Solver), we reasonably quantify the reward signals of this process and propose a two-stage RL post-training approach from freely exploring context to practically solving tasks. Second, to increase the diversity of training data, DoGe constructs an evolving curriculum learning pipeline: an expanded native domain knowledge corpus and an iteratively evolving seed problems pool. Experiments show that our method consistently outperforms the baseline across various benchmarks, providing a scalable pathway for realizing self-evolving LVLMs.

Desacoplar para Generalizar: Aprendizado Autoevolutivo com Prioridade no Contexto para Raciocínio Visiolinguístico com Dados Escassos

Decouple to Generalize: Context-First Self-Evolving Learning for Data-Scarce Vision-Language Reasoning

Resumo

Support