ChatPaper.aiChatPaper

Skywork-R1V4: Hacia una Inteligencia Multimodal Agéntica mediante el Pensamiento Intercalado con Imágenes e Investigación Profunda

Skywork-R1V4: Toward Agentic Multimodal Intelligence through Interleaved Thinking with Images and DeepResearch

December 2, 2025
Autores: Yifan Zhang, Liang Hu, Haofeng Sun, Peiyu Wang, Yichen Wei, Shukang Yin, Jiangbo Pei, Wei Shen, Peng Xia, Yi Peng, Tianyidan Xie, Eric Li, Yang Liu, Xuchen Song, Yahui Zhou
cs.AI

Resumen

A pesar de los recientes avances en los sistemas agentes multimodales, los enfoques existentes a menudo tratan la manipulación de imágenes y la búsqueda web como capacidades separadas, dependen en gran medida del costoso aprendizaje por refuerzo y carecen de una planificación basada en trazas de ejecución de herramientas reales. Para abordar estas limitaciones, presentamos Skywork-R1V4, un modelo agente multimodal de 30B (A3B) parámetros que unifica la planificación multimodal, la manipulación activa de imágenes ("pensar con imágenes"), la búsqueda multimodal profunda y, lo más crítico, el razonamiento intercalado que alterna dinámicamente entre operaciones visuales y la recuperación de conocimiento externo. Entrenado únicamente mediante ajuste fino supervisado en menos de 30,000 trayectorias de alta calidad, consistentes en planificación-ejecución, y validado mediante filtrado de consistencia paso a paso, Skywork-R1V4 logra resultados de vanguardia en benchmarks de percepción y búsqueda multimodal: obtiene 66.1 en MMSearch y 67.2 en FVQA, superando a Gemini 2.5 Flash en las 11 métricas. Skywork-R1V4 exhibe un razonamiento de horizonte largo emergente en el momento de la inferencia, orquestando exitosamente más de 10 llamadas a herramientas para resolver tareas complejas de múltiples pasos. Nuestros resultados demuestran que se puede lograr una inteligencia multimodal agente sofisticada únicamente a través de un aprendizaje supervisado cuidadosamente seleccionado, sin depender en absoluto del aprendizaje por refuerzo.
English
Despite recent progress in multimodal agentic systems, existing approaches often treat image manipulation and web search as disjoint capabilities, rely heavily on costly reinforcement learning, and lack planning grounded in real tool-execution traces. To address these limitations, we present Skywork-R1V4, a 30B (A3B) parameter multimodal agentic model that unifies multimodal planning, active image manipulation ("thinking with images"), deep multimodal search, and, most critically, interleaved reasoning that dynamically alternates between visual operations and external knowledge retrieval. Trained solely via supervised fine-tuning on fewer than 30,000 high-quality, planning-execution-consistent trajectories and validated through stepwise consistency filtering, Skywork-R1V4 achieves state-of-the-art results across perception and multimodal search benchmarks: it scores 66.1 on MMSearch and 67.2 on FVQA, surpassing Gemini 2.5 Flash on all 11 metrics. Skywork-R1V4 exhibits emergent long-horizon reasoning at inference time, successfully orchestrating more than 10 tool calls to solve complex, multi-step tasks. Our results demonstrate that sophisticated agentic multimodal intelligence can be achieved through carefully curated supervised learning alone, without any reliance on reinforcement learning.
PDF341December 4, 2025