PyVision-RL:強化学習による自律的視覚モデルの構築

PyVision-RL: Forging Open Agentic Vision Models via RL

February 24, 2026
著者: Shitian Zhao, Shaoheng Lin, Ming Li, Haoquan Zhang, Wenshuo Peng, Kaipeng Zhang, Chen Wei
cs.AI

要旨

エージェント型マルチモーダルモデルの強化学習では、相互作用の崩壊が頻繁に発生し、モデルがツール使用やマルチターン推論を減少させる方向に学習することで、エージェント行動の利点が制限されてしまう。本論文では、オープンウェイトのマルチモーダルモデル向けに、訓練を安定化し相互作用を持続させる強化学習フレームワーク「PyVision-RL」を提案する。我々のアプローチは、オーバーサンプリング・フィルタリング・ランキングによるロールアウト戦略と、累積的なツール報酬を組み合わせることで、崩壊を防止しマルチターンでのツール使用を促進する。統一された訓練パイプラインを用いて、画像理解と動画理解のための「PyVision-Image」および「PyVision-Video」を開発した。動画推論においては、PyVision-Videoはオンデマンド文脈構築を採用し、推論中にタスク関連フレームを選択的にサンプリングすることで視覚トークン使用量を大幅に削減する。実験結果は強力な性能と改善された効率性を示しており、持続的な相互作用とオンデマンド視覚処理がスケーラブルなマルチモーダルエージェントにとって重要であることを実証している。
English
Reinforcement learning for agentic multimodal models often suffers from interaction collapse, where models learn to reduce tool usage and multi-turn reasoning, limiting the benefits of agentic behavior. We introduce PyVision-RL, a reinforcement learning framework for open-weight multimodal models that stabilizes training and sustains interaction. Our approach combines an oversampling-filtering-ranking rollout strategy with an accumulative tool reward to prevent collapse and encourage multi-turn tool use. Using a unified training pipeline, we develop PyVision-Image and PyVision-Video for image and video understanding. For video reasoning, PyVision-Video employs on-demand context construction, selectively sampling task-relevant frames during reasoning to significantly reduce visual token usage. Experiments show strong performance and improved efficiency, demonstrating that sustained interaction and on-demand visual processing are critical for scalable multimodal agents.
PDF312March 28, 2026