ChatPaper.aiChatPaper

Skywork-R1V4: Op weg naar agentische multimodale intelligentie door middel van interleaved denken met beelden en DeepResearch

Skywork-R1V4: Toward Agentic Multimodal Intelligence through Interleaved Thinking with Images and DeepResearch

December 2, 2025
Auteurs: Yifan Zhang, Liang Hu, Haofeng Sun, Peiyu Wang, Yichen Wei, Shukang Yin, Jiangbo Pei, Wei Shen, Peng Xia, Yi Peng, Tianyidan Xie, Eric Li, Yang Liu, Xuchen Song, Yahui Zhou
cs.AI

Samenvatting

Ondanks recente vooruitgang in multimodale agent-systemen, behandelen bestaande benaderingen beeldmanipulatie en webzoeken vaak als gescheiden capaciteiten, vertrouwen ze zwaar op kostbare reinforcement learning, en ontbreekt het hen aan planning gebaseerd op echte tool-uitvoeringstraces. Om deze beperkingen aan te pakken, presenteren wij Skywork-R1V4, een multimodaal agent-model van 30B (A3B) parameters dat multimodale planning, actieve beeldmanipulatie ("denken met beelden"), diepgaand multimodaal zoeken, en cruciaal, onderling verweven redeneren dat dynamisch afwisselt tussen visuele operaties en externe kennisretrieval verenigt. Uitsluitend getraind via supervised fine-tuning op minder dan 30.000 hoogwaardige, planning-uitvoering-consistente trajecten en gevalideerd door stapsgewijze consistentiefiltering, behaalt Skywork-R1V4 state-of-the-art resultaten op perceptie- en multimodale zoekbenchmarks: het scoort 66,1 op MMSearch en 67,2 op FVQA, en overtreft Gemini 2,5 Flash op alle 11 metrieken. Skywork-R1V4 vertoont emergent langetermijnredeneren tijdens inferentie, waarbij het met succes meer dan 10 tool-aanroepen coördineert om complexe, meerstaps taken op te lossen. Onze resultaten tonen aan dat geavanceerde multimodale agent-intelligentie bereikt kan worden via zorgvuldig samengesteld supervised learning alleen, zonder enige afhankelijkheid van reinforcement learning.
English
Despite recent progress in multimodal agentic systems, existing approaches often treat image manipulation and web search as disjoint capabilities, rely heavily on costly reinforcement learning, and lack planning grounded in real tool-execution traces. To address these limitations, we present Skywork-R1V4, a 30B (A3B) parameter multimodal agentic model that unifies multimodal planning, active image manipulation ("thinking with images"), deep multimodal search, and, most critically, interleaved reasoning that dynamically alternates between visual operations and external knowledge retrieval. Trained solely via supervised fine-tuning on fewer than 30,000 high-quality, planning-execution-consistent trajectories and validated through stepwise consistency filtering, Skywork-R1V4 achieves state-of-the-art results across perception and multimodal search benchmarks: it scores 66.1 on MMSearch and 67.2 on FVQA, surpassing Gemini 2.5 Flash on all 11 metrics. Skywork-R1V4 exhibits emergent long-horizon reasoning at inference time, successfully orchestrating more than 10 tool calls to solve complex, multi-step tasks. Our results demonstrate that sophisticated agentic multimodal intelligence can be achieved through carefully curated supervised learning alone, without any reliance on reinforcement learning.
PDF341December 4, 2025