Insight-V++: Rumo ao Raciocínio Visual de Cadeia Longa Avançado com Modelos de Linguagem Multimodais de Grande Escala
Insight-V++: Towards Advanced Long-Chain Visual Reasoning with Multimodal Large Language Models
March 18, 2026
Autores: Yuhao Dong, Zuyan Liu, Shulin Tian, Yongming Rao, Ziwei Liu
cs.AI
Resumo
Os Modelos de Linguagem de Grande Porte (LLMs) alcançaram confiabilidade notável e capacidades avançadas por meio de raciocínio estendido em tempo de teste. No entanto, estender essas capacidades para Modelos Multimodais de Linguagem de Grande Porte (MLLMs) permanece um desafio significativo devido a uma escassez crítica de dados de raciocínio de cadeia longa de alta qualidade e de pipelines de treinamento otimizados. Para preencher essa lacuna, apresentamos uma estrutura unificada de raciocínio visual multiagente que evolui sistematicamente do nosso modelo fundamental centrado em imagem, Insight-V, para uma arquitetura espaço-temporal generalizada, Insight-V++.
Primeiro, propomos um pipeline escalável de geração de dados equipado com avaliação multigranularidade que sintetiza autonomamente trajetórias de raciocínio complexas e estruturadas nos domínios de imagem e vídeo, sem intervenção humana. Reconhecendo que supervisionar MLLMs diretamente com dados tão intrincados produz resultados subóptimos, projetamos uma arquitetura de agente duplo composta por um agente de raciocínio para executar cadeias analíticas extensas e um agente de resumo para avaliar criticamente e destilar os resultados finais.
Embora nossa estrutura inicial utilizasse a Otimização de Preferência Direta (DPO), sua natureza *off-policy* limitou fundamentalmente o potencial de aprendizado por reforço. Para superar essas limitações, particularmente para a compreensão de vídeos de longo horizonte, o Insight-V++ introduz dois novos algoritmos, ST-GRPO e J-GRPO, que aprimoram o raciocínio espaço-temporal e melhoram a robustez avaliativa. Crucialmente, ao alavancar o *feedback* confiável do agente de resumo, orientamos um processo iterativo de geração de caminhos de raciocínio, retreinando todo o sistema multiagente em um ciclo contínuo e de autossuperação.
Experimentações extensas em modelos base como LLaVA-NeXT e Qwen2.5-VL demonstram ganhos significativos de desempenho em *benchmarks* desafiadores de raciocínio para imagem e vídeo, preservando simultaneamente capacidades sólidas em tarefas tradicionais focadas em percepção.
English
Large Language Models (LLMs) have achieved remarkable reliability and advanced capabilities through extended test-time reasoning. However, extending these capabilities to Multi-modal Large Language Models (MLLMs) remains a significant challenge due to a critical scarcity of high-quality, long-chain reasoning data and optimized training pipelines. To bridge this gap, we present a unified multi-agent visual reasoning framework that systematically evolves from our foundational image-centric model, Insight-V, into a generalized spatial-temporal architecture, Insight-V++. We first propose a scalable data generation pipeline equipped with multi-granularity assessment that autonomously synthesizes structured, complex reasoning trajectories across image and video domains without human intervention. Recognizing that directly supervising MLLMs with such intricate data yields sub-optimal results, we design a dual-agent architecture comprising a reasoning agent to execute extensive analytical chains, and a summary agent to critically evaluate and distill final outcomes. While our initial framework utilized Direct Preference Optimization (DPO), its off-policy nature fundamentally constrained reinforcement learning potential. To overcome these limitations, particularly for long-horizon video understanding, Insight-V++ introduces two novel algorithms, ST-GRPO and J-GRPO, which enhance spatial-temporal reasoning and improve evaluative robustness. Crucially, by leveraging reliable feedback from the summary agent, we guide an iterative reasoning path generation process, retraining the entire multi-agent system in a continuous, self-improving loop. Extensive experiments on base models like LLaVA-NeXT and Qwen2.5-VL demonstrate significant performance gains across challenging image and video reasoning benchmarks while preserving strong capabilities on traditional perception-focused tasks.