ChatPaper.aiChatPaper

Skywork-R1V4: Rumo a uma Inteligência Multimodal Agente por meio do Pensamento Intercalado com Imagens e DeepResearch

Skywork-R1V4: Toward Agentic Multimodal Intelligence through Interleaved Thinking with Images and DeepResearch

December 2, 2025
Autores: Yifan Zhang, Liang Hu, Haofeng Sun, Peiyu Wang, Yichen Wei, Shukang Yin, Jiangbo Pei, Wei Shen, Peng Xia, Yi Peng, Tianyidan Xie, Eric Li, Yang Liu, Xuchen Song, Yahui Zhou
cs.AI

Resumo

Apesar dos recentes avanços em sistemas agentes multimodais, as abordagens existentes frequentemente tratam a manipulação de imagens e a pesquisa na web como capacidades dissociadas, dependem fortemente de aprendizagem por reforço dispendiosa e carecem de planeamento fundamentado em traços de execução de ferramentas reais. Para superar estas limitações, apresentamos o Skywork-R1V4, um modelo agente multimodal de 30B (A3B) de parâmetros que unifica o planeamento multimodal, a manipulação ativa de imagens ("pensar com imagens"), a pesquisa multimodal profunda e, de forma mais crítica, o raciocínio intercalado que alterna dinamicamente entre operações visuais e a recuperação de conhecimento externo. Treinado exclusivamente através de *fine-tuning* supervisionado em menos de 30.000 trajetórias de alta qualidade e consistentes entre planeamento e execução, e validado através de filtragem de consistência passo a passo, o Skywork-R1V4 alcança resultados de última geração em *benchmarks* de perceção e pesquisa multimodal: atinge 66,1 no MMSearch e 67,2 no FVQA, superando o Gemini 2.5 Flash em todas as 11 métricas. O Skywork-R1V4 exibe um raciocínio emergente de longo horizonte no tempo de inferência, orquestrando com sucesso mais de 10 chamadas a ferramentas para resolver tarefas complexas e multi-etapa. Os nossos resultados demonstram que uma inteligência multimodal agente sofisticada pode ser alcançada apenas através de aprendizagem supervisionada criteriosamente selecionada, sem qualquer dependência de aprendizagem por reforço.
English
Despite recent progress in multimodal agentic systems, existing approaches often treat image manipulation and web search as disjoint capabilities, rely heavily on costly reinforcement learning, and lack planning grounded in real tool-execution traces. To address these limitations, we present Skywork-R1V4, a 30B (A3B) parameter multimodal agentic model that unifies multimodal planning, active image manipulation ("thinking with images"), deep multimodal search, and, most critically, interleaved reasoning that dynamically alternates between visual operations and external knowledge retrieval. Trained solely via supervised fine-tuning on fewer than 30,000 high-quality, planning-execution-consistent trajectories and validated through stepwise consistency filtering, Skywork-R1V4 achieves state-of-the-art results across perception and multimodal search benchmarks: it scores 66.1 on MMSearch and 67.2 on FVQA, surpassing Gemini 2.5 Flash on all 11 metrics. Skywork-R1V4 exhibits emergent long-horizon reasoning at inference time, successfully orchestrating more than 10 tool calls to solve complex, multi-step tasks. Our results demonstrate that sophisticated agentic multimodal intelligence can be achieved through carefully curated supervised learning alone, without any reliance on reinforcement learning.
PDF513April 2, 2026