Insight-V++ : Vers un raisonnement visuel avancé sur des chaînes longues avec des modèles de langage de grande taille multimodaux
Insight-V++: Towards Advanced Long-Chain Visual Reasoning with Multimodal Large Language Models
March 18, 2026
Auteurs: Yuhao Dong, Zuyan Liu, Shulin Tian, Yongming Rao, Ziwei Liu
cs.AI
Résumé
Les modèles de langage de grande taille (LLM) ont atteint une fiabilité remarquable et des capacités avancées grâce à un raisonnement étendu au moment des tests. Cependant, l'extension de ces capacités aux modèles de langage multi-modaux (MLLM) reste un défi majeur en raison d'une pénurie critique de données de raisonnement à chaîne longue de haute qualité et de pipelines d'entraînement optimisés. Pour combler cette lacune, nous présentons un cadre unifié de raisonnement visuel multi-agents qui évolue systématiquement de notre modèle fondamental centré sur l'image, Insight-V, vers une architecture spatio-temporelle généralisée, Insight-V++. Nous proposons d'abord un pipeline évolutif de génération de données équipé d'une évaluation multi-granularité qui synthétise de manière autonome des trajectoires de raisonnement complexes et structurées dans les domaines de l'image et de la vidéo sans intervention humaine. Reconnaissant que superviser directement les MLLM avec des données aussi complexes donne des résultats sous-optimaux, nous concevons une architecture à double agent comprenant un agent de raisonnement pour exécuter des chaînes analytiques étendues, et un agent de synthèse pour évaluer de manière critique et distiller les résultats finaux. Bien que notre cadre initial ait utilisé l'optimisation directe des préférences (DPO), sa nature hors politique a fondamentalement limité le potentiel d'apprentissage par renforcement. Pour surmonter ces limitations, particulièrement pour la compréhension vidéo à long terme, Insight-V++ introduit deux nouveaux algorithmes, ST-GRPO et J-GRPO, qui améliorent le raisonnement spatio-temporel et renforcent la robustesse évaluative. Surtout, en tirant parti des retours fiables de l'agent de synthèse, nous guidons un processus itératif de génération de chemins de raisonnement, en réentraînant l'ensemble du système multi-agents dans une boucle continue d'auto-amélioration. Des expériences approfondies sur des modèles de base comme LLaVA-NeXT et Qwen2.5-VL démontrent des gains de performance significatifs sur des benchmarks exigeants de raisonnement image et vidéo, tout en préservant de solides capacités sur les tâches traditionnelles centrées sur la perception.
English
Large Language Models (LLMs) have achieved remarkable reliability and advanced capabilities through extended test-time reasoning. However, extending these capabilities to Multi-modal Large Language Models (MLLMs) remains a significant challenge due to a critical scarcity of high-quality, long-chain reasoning data and optimized training pipelines. To bridge this gap, we present a unified multi-agent visual reasoning framework that systematically evolves from our foundational image-centric model, Insight-V, into a generalized spatial-temporal architecture, Insight-V++. We first propose a scalable data generation pipeline equipped with multi-granularity assessment that autonomously synthesizes structured, complex reasoning trajectories across image and video domains without human intervention. Recognizing that directly supervising MLLMs with such intricate data yields sub-optimal results, we design a dual-agent architecture comprising a reasoning agent to execute extensive analytical chains, and a summary agent to critically evaluate and distill final outcomes. While our initial framework utilized Direct Preference Optimization (DPO), its off-policy nature fundamentally constrained reinforcement learning potential. To overcome these limitations, particularly for long-horizon video understanding, Insight-V++ introduces two novel algorithms, ST-GRPO and J-GRPO, which enhance spatial-temporal reasoning and improve evaluative robustness. Crucially, by leveraging reliable feedback from the summary agent, we guide an iterative reasoning path generation process, retraining the entire multi-agent system in a continuous, self-improving loop. Extensive experiments on base models like LLaVA-NeXT and Qwen2.5-VL demonstrate significant performance gains across challenging image and video reasoning benchmarks while preserving strong capabilities on traditional perception-focused tasks.