ChatPaper.aiChatPaper

Skywork-R1V4: Verso un'Intelligenza Multimodale Agente attraverso il Ragionamento Intervallato con Immagini e DeepResearch

Skywork-R1V4: Toward Agentic Multimodal Intelligence through Interleaved Thinking with Images and DeepResearch

December 2, 2025
Autori: Yifan Zhang, Liang Hu, Haofeng Sun, Peiyu Wang, Yichen Wei, Shukang Yin, Jiangbo Pei, Wei Shen, Peng Xia, Yi Peng, Tianyidan Xie, Eric Li, Yang Liu, Xuchen Song, Yahui Zhou
cs.AI

Abstract

Nonostante i recenti progressi nei sistemi agente multimodali, gli approcci esistenti spesso trattano la manipolazione delle immagini e la ricerca web come capacità separate, si basano pesantemente su costosi apprendimenti per rinforzo e mancano di una pianificazione basata su tracce reali di esecuzione di strumenti. Per affrontare queste limitazioni, presentiamo Skywork-R1V4, un modello agente multimodale da 30B (A3B) parametri che unifica la pianificazione multimodale, la manipolazione attiva delle immagini ("pensare con le immagini"), la ricerca multimodale approfondita e, aspetto cruciale, un ragionamento intervallato che alterna dinamicamente operazioni visive e recupero di conoscenze esterne. Addestrato esclusivamente tramite fine-tuning supervisionato su meno di 30.000 traiettorie di alta qualità, consistenti nella pianificazione-esecuzione e convalidato tramite filtraggio della coerenza passo-passo, Skywork-R1V4 raggiunge risultati all'avanguardia in benchmark di percezione e ricerca multimodale: ottiene un punteggio di 66,1 su MMSearch e 67,2 su FVQA, superando Gemini 2.5 Flash in tutte le 11 metriche. Skywork-R1V4 mostra un ragionamento emergente a lungo orizzonte al momento dell'inferenza, riuscendo a orchestrare più di 10 chiamate a strumenti per risolvere compiti complessi e multi-step. I nostri risultati dimostrano che un'intelligenza agente multimodale sofisticata può essere ottenuta tramite il solo apprendimento supervisionato accuratamente curato, senza alcuna dipendenza dall'apprendimento per rinforzo.
English
Despite recent progress in multimodal agentic systems, existing approaches often treat image manipulation and web search as disjoint capabilities, rely heavily on costly reinforcement learning, and lack planning grounded in real tool-execution traces. To address these limitations, we present Skywork-R1V4, a 30B (A3B) parameter multimodal agentic model that unifies multimodal planning, active image manipulation ("thinking with images"), deep multimodal search, and, most critically, interleaved reasoning that dynamically alternates between visual operations and external knowledge retrieval. Trained solely via supervised fine-tuning on fewer than 30,000 high-quality, planning-execution-consistent trajectories and validated through stepwise consistency filtering, Skywork-R1V4 achieves state-of-the-art results across perception and multimodal search benchmarks: it scores 66.1 on MMSearch and 67.2 on FVQA, surpassing Gemini 2.5 Flash on all 11 metrics. Skywork-R1V4 exhibits emergent long-horizon reasoning at inference time, successfully orchestrating more than 10 tool calls to solve complex, multi-step tasks. Our results demonstrate that sophisticated agentic multimodal intelligence can be achieved through carefully curated supervised learning alone, without any reliance on reinforcement learning.
PDF341December 4, 2025