ChatPaper.aiChatPaper

Skywork-R1V4: Auf dem Weg zu agentischer multimodaler Intelligenz durch verschachteltes Denken mit Bildern und DeepResearch

Skywork-R1V4: Toward Agentic Multimodal Intelligence through Interleaved Thinking with Images and DeepResearch

December 2, 2025
papers.authors: Yifan Zhang, Liang Hu, Haofeng Sun, Peiyu Wang, Yichen Wei, Shukang Yin, Jiangbo Pei, Wei Shen, Peng Xia, Yi Peng, Tianyidan Xie, Eric Li, Yang Liu, Xuchen Song, Yahui Zhou
cs.AI

papers.abstract

Trotz jüngster Fortschritte in multimodalen agentenbasierten Systemen behandeln bestehende Ansätze Bildmanipulation und Websuche oft als getrennte Fähigkeiten, stützen sich stark auf kostspieliges Reinforcement Learning und verfügen nicht über eine Planung, die auf echten Werkzeugausführungsdaten basiert. Um diese Einschränkungen zu adressieren, stellen wir Skywork-R1V4 vor, ein multimodales agentenbasiertes Modell mit 30B (A3B) Parametern, das multimodale Planung, aktive Bildmanipulation ("Denken mit Bildern"), tiefgreifende multimodale Suche und, entscheidend, verschachteltes Reasoning vereint, das dynamisch zwischen visuellen Operationen und externer Wissensabfrage wechselt. Ausschließlich durch supervidiertes Fine-Tuning mit weniger als 30.000 hochwertigen, planungsausführungskonsistenten Trajektorien trainiert und durch schrittweise Konsistenzfilterung validiert, erzielt Skywork-R1V4 state-of-the-art Ergebnisse in Wahrnehmungs- und multimodalen Suchbenchmarks: Es erreicht 66,1 auf MMSearch und 67,2 auf FVQA und übertrifft Gemini 2.5 Flash in allen 11 Metriken. Skywork-R1V4 zeigt emergentes langfristiges Reasoning zur Inferenzzeit und orchestriert erfolgreich mehr als 10 Werkzeugaufrufe, um komplexe, mehrstufige Aufgaben zu lösen. Unsere Ergebnisse demonstrieren, dass anspruchsvolle agentenbasierte multimodale Intelligenz durch sorgfältig kuratiertes supervidiertes Lernen allein erreicht werden kann, ohne jegliche Abhängigkeit von Reinforcement Learning.
English
Despite recent progress in multimodal agentic systems, existing approaches often treat image manipulation and web search as disjoint capabilities, rely heavily on costly reinforcement learning, and lack planning grounded in real tool-execution traces. To address these limitations, we present Skywork-R1V4, a 30B (A3B) parameter multimodal agentic model that unifies multimodal planning, active image manipulation ("thinking with images"), deep multimodal search, and, most critically, interleaved reasoning that dynamically alternates between visual operations and external knowledge retrieval. Trained solely via supervised fine-tuning on fewer than 30,000 high-quality, planning-execution-consistent trajectories and validated through stepwise consistency filtering, Skywork-R1V4 achieves state-of-the-art results across perception and multimodal search benchmarks: it scores 66.1 on MMSearch and 67.2 on FVQA, surpassing Gemini 2.5 Flash on all 11 metrics. Skywork-R1V4 exhibits emergent long-horizon reasoning at inference time, successfully orchestrating more than 10 tool calls to solve complex, multi-step tasks. Our results demonstrate that sophisticated agentic multimodal intelligence can be achieved through carefully curated supervised learning alone, without any reliance on reinforcement learning.
PDF341December 4, 2025