PyVision-RL: Forgiatura di Modelli Vision Agenti Aperti tramite RL
PyVision-RL: Forging Open Agentic Vision Models via RL
February 24, 2026
Autori: Shitian Zhao, Shaoheng Lin, Ming Li, Haoquan Zhang, Wenshuo Peng, Kaipeng Zhang, Chen Wei
cs.AI
Abstract
L'apprendimento per rinforzo per modelli multimodali agentivi soffre spesso di collasso dell'interazione, in cui i modelli imparano a ridurre l'uso di strumenti e il ragionamento multi-turno, limitando i vantaggi del comportamento agentico. Introduciamo PyVision-RL, un framework di apprendimento per rinforzo per modelli multimodali open-weight che stabilizza l'addestramento e sostiene l'interazione. Il nostro approccio combina una strategia di rollout di oversampling-filtraggio-ranking con una ricompensa cumulativa per gli strumenti per prevenire il collasso e incoraggiare l'uso multi-turno degli strumenti. Utilizzando una pipeline di addestramento unificata, sviluppiamo PyVision-Image e PyVision-Video per la comprensione di immagini e video. Per il ragionamento video, PyVision-Video impiega una costruzione contestuale on-demand, campionando selettivamente frame rilevanti per il compito durante il ragionamento per ridurre significativamente l'uso di token visivi. Gli esperimenti mostrano prestazioni solide e un'efficienza migliorata, dimostrando che l'interazione sostenuta e l'elaborazione visiva on-demand sono critiche per agenti multimodali scalabili.
English
Reinforcement learning for agentic multimodal models often suffers from interaction collapse, where models learn to reduce tool usage and multi-turn reasoning, limiting the benefits of agentic behavior. We introduce PyVision-RL, a reinforcement learning framework for open-weight multimodal models that stabilizes training and sustains interaction. Our approach combines an oversampling-filtering-ranking rollout strategy with an accumulative tool reward to prevent collapse and encourage multi-turn tool use. Using a unified training pipeline, we develop PyVision-Image and PyVision-Video for image and video understanding. For video reasoning, PyVision-Video employs on-demand context construction, selectively sampling task-relevant frames during reasoning to significantly reduce visual token usage. Experiments show strong performance and improved efficiency, demonstrating that sustained interaction and on-demand visual processing are critical for scalable multimodal agents.