ChatPaper.aiChatPaper

Skywork-R1V4 : Vers une intelligence multimodale agentique par une pensée entrelacée avec images et recherche approfondie

Skywork-R1V4: Toward Agentic Multimodal Intelligence through Interleaved Thinking with Images and DeepResearch

December 2, 2025
papers.authors: Yifan Zhang, Liang Hu, Haofeng Sun, Peiyu Wang, Yichen Wei, Shukang Yin, Jiangbo Pei, Wei Shen, Peng Xia, Yi Peng, Tianyidan Xie, Eric Li, Yang Liu, Xuchen Song, Yahui Zhou
cs.AI

papers.abstract

Malgré les progrès récents dans les systèmes agentiques multimodaux, les approches existantes traitent souvent la manipulation d'images et la recherche web comme des capacités disjointes, reposent fortement sur l'apprentissage par renforcement coûteux et manquent de planification fondée sur des traces réelles d'exécution d'outils. Pour remédier à ces limitations, nous présentons Skywork-R1V4, un modèle agentique multimodal de 30 milliards de paramètres (A3B) qui unifie la planification multimodale, la manipulation active d'images (« raisonner avec les images »), la recherche multimodale approfondie et, plus crucialement, un raisonnement entrelacé qui alterne dynamiquement entre les opérations visuelles et la récupération de connaissances externes. Entraîné uniquement par apprentissage supervisé sur moins de 30 000 trajectoires de haute qualité, cohérentes entre planification et exécution, et validé par un filtrage pas-à-pas de cohérence, Skywork-R1V4 obtient des résultats state-of-the-art sur divers benchmarks de perception et de recherche multimodale : il atteint un score de 66,1 sur MMSearch et 67,2 sur FVQA, surpassant Gemini 2.5 Flash sur les 11 métriques. Skywork-R1V4 présente un raisonnement émergent à long terme lors de l'inférence, orchestrant avec succès plus de 10 appels d'outils pour résoudre des tâches complexes multi-étapes. Nos résultats démontrent qu'une intelligence agentique multimodale sophistiquée peut être atteinte par le seul biais d'un apprentissage supervisé soigneusement construit, sans aucun recours à l'apprentissage par renforcement.
English
Despite recent progress in multimodal agentic systems, existing approaches often treat image manipulation and web search as disjoint capabilities, rely heavily on costly reinforcement learning, and lack planning grounded in real tool-execution traces. To address these limitations, we present Skywork-R1V4, a 30B (A3B) parameter multimodal agentic model that unifies multimodal planning, active image manipulation ("thinking with images"), deep multimodal search, and, most critically, interleaved reasoning that dynamically alternates between visual operations and external knowledge retrieval. Trained solely via supervised fine-tuning on fewer than 30,000 high-quality, planning-execution-consistent trajectories and validated through stepwise consistency filtering, Skywork-R1V4 achieves state-of-the-art results across perception and multimodal search benchmarks: it scores 66.1 on MMSearch and 67.2 on FVQA, surpassing Gemini 2.5 Flash on all 11 metrics. Skywork-R1V4 exhibits emergent long-horizon reasoning at inference time, successfully orchestrating more than 10 tool calls to solve complex, multi-step tasks. Our results demonstrate that sophisticated agentic multimodal intelligence can be achieved through carefully curated supervised learning alone, without any reliance on reinforcement learning.
PDF341December 4, 2025