Insight-V++: Hacia un Razonamiento Visual Avanzado de Cadenas Largas con Modelos de Lenguaje Grandes Multimodales

Resumen

Los Modelos de Lenguaje Grandes (LLMs) han logrado una notable confiabilidad y capacidades avanzadas mediante el razonamiento extendido en tiempo de prueba. Sin embargo, extender estas capacidades a los Modelos Multimodales de Lenguaje Grande (MLLMs) sigue siendo un desafío significativo debido a una escasez crítica de datos de razonamiento de cadena larga de alta calidad y de pipelines de entrenamiento optimizados. Para cerrar esta brecha, presentamos un marco unificado de razonamiento visual multi-agente que evoluciona sistemáticamente desde nuestro modelo fundamental centrado en imágenes, Insight-V, hacia una arquitectura espacio-temporal generalizada, Insight-V++. Primero proponemos un pipeline escalable de generación de datos equipado con evaluación multi-granularidad que sintetiza de forma autónoma trayectorias de razonamiento complejas y estructuradas a través de dominios de imagen y video sin intervención humana. Reconociendo que supervisar directamente a los MLLMs con datos tan intrincados produce resultados subóptimos, diseñamos una arquitectura de doble agente que comprende un agente de razonamiento para ejecutar cadenas analíticas extensas, y un agente de resumen para evaluar críticamente y destilar los resultados finales. Si bien nuestro marco inicial utilizaba la Optimización de Preferencia Directa (DPO), su naturaleza *off-policy* limitaba fundamentalmente el potencial del aprendizaje por refuerzo. Para superar estas limitaciones, particularmente para la comprensión de video de horizonte largo, Insight-V++ introduce dos algoritmos novedosos, ST-GRPO y J-GRPO, que mejoran el razonamiento espacio-temporal y aumentan la robustez evaluativa. Crucialmente, al aprovechar la retroalimentación confiable del agente de resumen, guiamos un proceso iterativo de generación de trayectorias de razonamiento, reentrenando todo el sistema multi-agente en un ciclo continuo de auto-mejora. Experimentos exhaustivos en modelos base como LLaVA-NeXT y Qwen2.5-VL demuestran ganancias significativas de rendimiento en diversos benchmarks desafiantes de razonamiento para imagen y video, al mismo tiempo que se preservan capacidades sólidas en tareas tradicionales centradas en la percepción.

English

Large Language Models (LLMs) have achieved remarkable reliability and advanced capabilities through extended test-time reasoning. However, extending these capabilities to Multi-modal Large Language Models (MLLMs) remains a significant challenge due to a critical scarcity of high-quality, long-chain reasoning data and optimized training pipelines. To bridge this gap, we present a unified multi-agent visual reasoning framework that systematically evolves from our foundational image-centric model, Insight-V, into a generalized spatial-temporal architecture, Insight-V++. We first propose a scalable data generation pipeline equipped with multi-granularity assessment that autonomously synthesizes structured, complex reasoning trajectories across image and video domains without human intervention. Recognizing that directly supervising MLLMs with such intricate data yields sub-optimal results, we design a dual-agent architecture comprising a reasoning agent to execute extensive analytical chains, and a summary agent to critically evaluate and distill final outcomes. While our initial framework utilized Direct Preference Optimization (DPO), its off-policy nature fundamentally constrained reinforcement learning potential. To overcome these limitations, particularly for long-horizon video understanding, Insight-V++ introduces two novel algorithms, ST-GRPO and J-GRPO, which enhance spatial-temporal reasoning and improve evaluative robustness. Crucially, by leveraging reliable feedback from the summary agent, we guide an iterative reasoning path generation process, retraining the entire multi-agent system in a continuous, self-improving loop. Extensive experiments on base models like LLaVA-NeXT and Qwen2.5-VL demonstrate significant performance gains across challenging image and video reasoning benchmarks while preserving strong capabilities on traditional perception-focused tasks.

Insight-V++: Hacia un Razonamiento Visual Avanzado de Cadenas Largas con Modelos de Lenguaje Grandes Multimodales

Insight-V++: Towards Advanced Long-Chain Visual Reasoning with Multimodal Large Language Models

Resumen

Support