PyVision-RL : Forger des modèles visionnaires agentiques ouverts par apprentissage par renforcement
PyVision-RL: Forging Open Agentic Vision Models via RL
February 24, 2026
Auteurs: Shitian Zhao, Shaoheng Lin, Ming Li, Haoquan Zhang, Wenshuo Peng, Kaipeng Zhang, Chen Wei
cs.AI
Résumé
L'apprentissage par renforcement pour les modèles multimodaux agentiques souffre souvent d'un effondrement de l'interaction, où les modèles apprennent à réduire l'utilisation d'outils et le raisonnement multi-tours, limitant ainsi les bénéfices du comportement agentique. Nous présentons PyVision-RL, un cadre d'apprentissage par renforcement pour les modèles multimodaux à poids ouverts qui stabilise l'entraînement et maintient l'interaction. Notre approche combine une stratégie de déploiement par suréchantillonnage-filtrage-classement avec une récompense d'outil cumulative pour prévenir l'effondrement et encourager l'utilisation multi-tours des outils. En utilisant un pipeline d'entraînement unifié, nous développons PyVision-Image et PyVision-Video pour la compréhension d'images et de vidéos. Pour le raisonnement vidéo, PyVision-Video utilise une construction de contexte à la demande, échantillonnant sélectivement les images pertinentes pour la tâche durant le raisonnement afin de réduire significativement l'utilisation de tokens visuels. Les expériences montrent de solides performances et une efficacité améliorée, démontrant que l'interaction soutenue et le traitement visuel à la demande sont essentiels pour des agents multimodaux évolutifs.
English
Reinforcement learning for agentic multimodal models often suffers from interaction collapse, where models learn to reduce tool usage and multi-turn reasoning, limiting the benefits of agentic behavior. We introduce PyVision-RL, a reinforcement learning framework for open-weight multimodal models that stabilizes training and sustains interaction. Our approach combines an oversampling-filtering-ranking rollout strategy with an accumulative tool reward to prevent collapse and encourage multi-turn tool use. Using a unified training pipeline, we develop PyVision-Image and PyVision-Video for image and video understanding. For video reasoning, PyVision-Video employs on-demand context construction, selectively sampling task-relevant frames during reasoning to significantly reduce visual token usage. Experiments show strong performance and improved efficiency, demonstrating that sustained interaction and on-demand visual processing are critical for scalable multimodal agents.