Skywork-R1V4: 이미지와 심층 연구를 통한 인터리브 사고를 향한 에이전트형 멀티모달 인텔리전스
Skywork-R1V4: Toward Agentic Multimodal Intelligence through Interleaved Thinking with Images and DeepResearch
December 2, 2025
저자: Yifan Zhang, Liang Hu, Haofeng Sun, Peiyu Wang, Yichen Wei, Shukang Yin, Jiangbo Pei, Wei Shen, Peng Xia, Yi Peng, Tianyidan Xie, Eric Li, Yang Liu, Xuchen Song, Yahui Zhou
cs.AI
초록
최근 멀티모달 에이전트 시스템에서 진전이 있었음에도 불구하고, 기존 접근법들은 이미지 조작과 웹 검색을 분리된 능력으로 취급하고, 비용이 높은 강화 학습에 크게 의존하며, 실제 도구 실행 흔적에 기반한 계획 수립이 부족한 경우가 많습니다. 이러한 한계점을 해결하기 위해 우리는 Skywork-R1V4를 제시합니다. 이는 30B(A3B) 파라미터 규모의 멀티모달 에이전트 모델로, 멀티모달 계획 수립, 능동적 이미지 조작("이미지를 통한 사고"), 심층 멀티모달 검색, 그리고 가장 중요한 시각적 연산과 외부 지식 검색을 동적으로 교차시키는 인터리브 추론을 통합합니다. 30,000개 미만의 고품질이며 계획-실행이 일관된 궤적 데이터에 대해 지도 미세 조정만으로 훈련되고 단계적 일관성 필터링을 통해 검증된 Skywork-R1V4는 인지 및 멀티모달 검색 벤치마크에서 최첨단 성능을 달성했습니다: MMSearch에서 66.1점, FVQA에서 67.2점을 기록하여 11개 모든 지표에서 Gemini 2.5 Flash를 능가했습니다. Skywork-R1V4는 추론 시점에 긴 수평의 추론 능력이 발현되어 복잡한 다단계 작업을 해결하기 위해 10회 이상의 도구 호출을 성공적으로 조정합니다. 우리의 결과는 정교한 에이전트 멀티모달 지능이 강화 학습에 전혀 의존하지 않고도 신중하게 선별된 지도 학습만으로 달성될 수 있음을 입증합니다.
English
Despite recent progress in multimodal agentic systems, existing approaches often treat image manipulation and web search as disjoint capabilities, rely heavily on costly reinforcement learning, and lack planning grounded in real tool-execution traces. To address these limitations, we present Skywork-R1V4, a 30B (A3B) parameter multimodal agentic model that unifies multimodal planning, active image manipulation ("thinking with images"), deep multimodal search, and, most critically, interleaved reasoning that dynamically alternates between visual operations and external knowledge retrieval. Trained solely via supervised fine-tuning on fewer than 30,000 high-quality, planning-execution-consistent trajectories and validated through stepwise consistency filtering, Skywork-R1V4 achieves state-of-the-art results across perception and multimodal search benchmarks: it scores 66.1 on MMSearch and 67.2 on FVQA, surpassing Gemini 2.5 Flash on all 11 metrics. Skywork-R1V4 exhibits emergent long-horizon reasoning at inference time, successfully orchestrating more than 10 tool calls to solve complex, multi-step tasks. Our results demonstrate that sophisticated agentic multimodal intelligence can be achieved through carefully curated supervised learning alone, without any reliance on reinforcement learning.