PyVision-RL: 강화학습을 통한 개방형 에이전트 비전 모델 구축

PyVision-RL: Forging Open Agentic Vision Models via RL

February 24, 2026
저자: Shitian Zhao, Shaoheng Lin, Ming Li, Haoquan Zhang, Wenshuo Peng, Kaipeng Zhang, Chen Wei
cs.AI

초록

에이전트형 멀티모달 모델의 강화학습은 종종 상호작용 붕괴(interaction collapse)로 인해 어려움을 겪으며, 이는 모델이 도구 사용과 다중 회차 추론을 줄이는 방향으로 학습하여 에이전트 행동의 이점을 제한한다. 본 연구에서는 개방형 가중치(open-weight) 멀티모달 모델을 위한 강화학습 프레임워크인 PyVision-RL을 소개한다. 이 프레임워크는 훈련을 안정화하고 상호작용을 지속시킨다. 우리의 접근법은 오버샘플링-필터링-랭킹 롤아웃 전략과 누적 도구 보상을 결합하여 붕괴를 방지하고 다중 회차 도구 사용을 장려한다. 통합 훈련 파이프라인을 사용하여 이미지 및 비디오 이해를 위한 PyVision-Image와 PyVision-Video를 개발했다. 비디오 추론을 위해 PyVision-Video는 주문형 콘텍스트 구축(on-demand context construction)을 채택하여, 추론 과정에서 작업 관련 프레임을 선택적으로 샘플링하여 시각적 토큰 사용을 크게 줄인다. 실험 결과 강력한 성능과 향상된 효율성을 보여주며, 지속적인 상호작용과 주문형 시각 처리가 확장 가능한 멀티모달 에이전트에 중요함을 입증한다.
English
Reinforcement learning for agentic multimodal models often suffers from interaction collapse, where models learn to reduce tool usage and multi-turn reasoning, limiting the benefits of agentic behavior. We introduce PyVision-RL, a reinforcement learning framework for open-weight multimodal models that stabilizes training and sustains interaction. Our approach combines an oversampling-filtering-ranking rollout strategy with an accumulative tool reward to prevent collapse and encourage multi-turn tool use. Using a unified training pipeline, we develop PyVision-Image and PyVision-Video for image and video understanding. For video reasoning, PyVision-Video employs on-demand context construction, selectively sampling task-relevant frames during reasoning to significantly reduce visual token usage. Experiments show strong performance and improved efficiency, demonstrating that sustained interaction and on-demand visual processing are critical for scalable multimodal agents.
PDF312March 28, 2026