ChatPaper.aiChatPaper

Skywork-R1V4: К агентной мультимодальной интеллектуальной системе через чередующееся мышление с изображениями и глубокое исследование

Skywork-R1V4: Toward Agentic Multimodal Intelligence through Interleaved Thinking with Images and DeepResearch

December 2, 2025
Авторы: Yifan Zhang, Liang Hu, Haofeng Sun, Peiyu Wang, Yichen Wei, Shukang Yin, Jiangbo Pei, Wei Shen, Peng Xia, Yi Peng, Tianyidan Xie, Eric Li, Yang Liu, Xuchen Song, Yahui Zhou
cs.AI

Аннотация

Несмотря на недавний прогресс в мультимодальных агентных системах, существующие подходы часто рассматривают манипуляции с изображениями и веб-поиск как разрозненные возможности, сильно зависят от дорогостоящего обучения с подкреплением и не имеют планирования, основанного на реальных траекториях выполнения инструментов. Чтобы устранить эти ограничения, мы представляем Skywork-R1V4 — мультимодальную агентную модель с 30 миллиардами (30B) параметров, которая объединяет мультимодальное планирование, активное манипулирование изображениями («мышление с помощью изображений»), углубленный мультимодальный поиск и, что наиболее важно, чередующиеся рассуждения, динамически переключающиеся между визуальными операциями и извлечением внешних знаний. Обученная исключительно с помощью контролируемого тонкого настроения на менее чем 30 000 высококачественных, согласованных по планированию и выполнению траекторий и проверенная с помощью пошаговой фильтрации на согласованность, Skywork-R1V4 достигает передовых результатов в различных бенчмарках восприятия и мультимодального поиска: она набирает 66,1 балла на MMSearch и 67,2 балла на FVQA, превосходя Gemini 2.5 Flash по всем 11 метрикам. Skywork-R1V4 демонстрирует emergent долгосрочное планирование на этапе вывода, успешно координируя более 10 вызовов инструментов для решения сложных многошаговых задач. Наши результаты показывают, что сложный агентный мультимодальный интеллект может быть достигнут только за счет тщательно отобранного контролируемого обучения, без какой-либо зависимости от обучения с подкреплением.
English
Despite recent progress in multimodal agentic systems, existing approaches often treat image manipulation and web search as disjoint capabilities, rely heavily on costly reinforcement learning, and lack planning grounded in real tool-execution traces. To address these limitations, we present Skywork-R1V4, a 30B (A3B) parameter multimodal agentic model that unifies multimodal planning, active image manipulation ("thinking with images"), deep multimodal search, and, most critically, interleaved reasoning that dynamically alternates between visual operations and external knowledge retrieval. Trained solely via supervised fine-tuning on fewer than 30,000 high-quality, planning-execution-consistent trajectories and validated through stepwise consistency filtering, Skywork-R1V4 achieves state-of-the-art results across perception and multimodal search benchmarks: it scores 66.1 on MMSearch and 67.2 on FVQA, surpassing Gemini 2.5 Flash on all 11 metrics. Skywork-R1V4 exhibits emergent long-horizon reasoning at inference time, successfully orchestrating more than 10 tool calls to solve complex, multi-step tasks. Our results demonstrate that sophisticated agentic multimodal intelligence can be achieved through carefully curated supervised learning alone, without any reliance on reinforcement learning.
PDF341December 4, 2025