VL-Cogito : Apprentissage par renforcement progressif pour un raisonnement multimodal avancé
VL-Cogito: Progressive Curriculum Reinforcement Learning for Advanced Multimodal Reasoning
July 30, 2025
papers.authors: Ruifeng Yuan, Chenghao Xiao, Sicong Leng, Jianyu Wang, Long Li, Weiwen Xu, Hou Pong Chan, Deli Zhao, Tingyang Xu, Zhongyu Wei, Hao Zhang, Yu Rong
cs.AI
papers.abstract
L'apprentissage par renforcement a démontré son efficacité pour améliorer les capacités de raisonnement des grands modèles de langage. Les efforts de recherche récents ont progressivement étendu ce paradigme aux tâches de raisonnement multimodal. En raison de la complexité et de la diversité inhérentes des tâches multimodales, notamment en termes de contenu sémantique et de formulations de problèmes, les modèles existants présentent souvent des performances instables à travers divers domaines et niveaux de difficulté. Pour répondre à ces limitations, nous proposons VL-Cogito, un modèle avancé de raisonnement multimodal entraîné via un nouveau cadre d'apprentissage par renforcement progressif à curriculum multi-étapes (PCuRL). PCuRL guide systématiquement le modèle à travers des tâches de difficulté croissante, améliorant considérablement ses capacités de raisonnement dans divers contextes multimodaux. Le cadre introduit deux innovations clés : (1) un mécanisme de pondération souple de la difficulté en ligne, ajustant dynamiquement la difficulté d'entraînement à travers les étapes successives de l'apprentissage par renforcement ; et (2) un mécanisme de récompense dynamique basé sur la longueur, qui encourage le modèle à réguler de manière adaptative la longueur de son chemin de raisonnement en fonction de la complexité de la tâche, équilibrant ainsi l'efficacité du raisonnement avec la justesse. Les évaluations expérimentales démontrent que VL-Cogito correspond ou surpasse systématiquement les modèles orientés raisonnement existants sur les principaux benchmarks multimodaux couvrant les domaines des mathématiques, des sciences, de la logique et de la compréhension générale, validant ainsi l'efficacité de notre approche.
English
Reinforcement learning has proven its effectiveness in enhancing the
reasoning capabilities of large language models. Recent research efforts have
progressively extended this paradigm to multimodal reasoning tasks. Due to the
inherent complexity and diversity of multimodal tasks, especially in semantic
content and problem formulations, existing models often exhibit unstable
performance across various domains and difficulty levels. To address these
limitations, we propose VL-Cogito, an advanced multimodal reasoning model
trained via a novel multi-stage Progressive Curriculum Reinforcement Learning
(PCuRL) framework. PCuRL systematically guides the model through tasks of
gradually increasing difficulty, substantially improving its reasoning
abilities across diverse multimodal contexts. The framework introduces two key
innovations: (1) an online difficulty soft weighting mechanism, dynamically
adjusting training difficulty across successive RL training stages; and (2) a
dynamic length reward mechanism, which encourages the model to adaptively
regulate its reasoning path length according to task complexity, thus balancing
reasoning efficiency with correctness. Experimental evaluations demonstrate
that VL-Cogito consistently matches or surpasses existing reasoning-oriented
models across mainstream multimodal benchmarks spanning mathematics, science,
logic, and general understanding, validating the effectiveness of our approach.