Insight-V++: Verso un Ragionamento Visivo Avanzato su Catene Lunghe con Modelli Linguistici Multimodali di Grandi Dimensioni

Abstract

I Modelli Linguistici di Grande Dimensione (LLM) hanno raggiunto un'affidabilità notevole e capacità avanzate grazie a ragionamenti estesi durante il test. Tuttavia, estendere queste capacità ai Modelli Linguistici Multimodali di Grande Dimensione (MLLM) rimane una sfida significativa a causa di una critica carenza di dati di ragionamento a catena lunga di alta qualità e di pipeline di addestramento ottimizzate. Per colmare questa lacuna, presentiamo un framework unificato di ragionamento visivo multi-agente che si evolve sistematicamente dal nostro modello fondazionale incentrato sulle immagini, Insight-V, verso un'architettura spaziale-temporale generalizzata, Insight-V++. Inizialmente proponiamo una pipeline scalabile di generazione dati, dotata di valutazione multi-granularità, che sintetizza autonomamente traiettorie di ragionamento complesse e strutturate nei domini di immagini e video senza intervento umano. Riconoscendo che supervisionare direttamente gli MLLM con dati così intricati produce risultati sub-ottimali, progettiamo un'architettura duale composta da un agente di ragionamento per eseguire catene analitiche estese e un agente di riepilogo per valutare criticamente e distillare i risultati finali. Sebbene il nostro framework iniziale utilizzasse l'Optimizzazione delle Preferenze Dirette (DPO), la sua natura off-policy ha fondamentalmente limitato il potenziale dell'apprendimento per rinforzo. Per superare queste limitazioni, in particolare per la comprensione di video a lungo orizzonte, Insight-V++ introduce due nuovi algoritmi, ST-GRPO e J-GRPO, che migliorano il ragionamento spaziale-temporale e aumentano la robustezza valutativa. Crucialmente, sfruttando feedback affidabili dall'agente di riepilogo, guidiamo un processo iterativo di generazione di percorsi di ragionamento, riaddestrando l'intero sistema multi-agente in un ciclo continuo e auto-migliorativo. Esperimenti estesi su modelli base come LLaVA-NeXT e Qwen2.5-VL dimostrano significativi guadagni prestazionali su benchmark impegnativi di ragionamento su immagini e video, preservando al contempo solide capacità su compiti tradizionali focalizzati sulla percezione.

English

Large Language Models (LLMs) have achieved remarkable reliability and advanced capabilities through extended test-time reasoning. However, extending these capabilities to Multi-modal Large Language Models (MLLMs) remains a significant challenge due to a critical scarcity of high-quality, long-chain reasoning data and optimized training pipelines. To bridge this gap, we present a unified multi-agent visual reasoning framework that systematically evolves from our foundational image-centric model, Insight-V, into a generalized spatial-temporal architecture, Insight-V++. We first propose a scalable data generation pipeline equipped with multi-granularity assessment that autonomously synthesizes structured, complex reasoning trajectories across image and video domains without human intervention. Recognizing that directly supervising MLLMs with such intricate data yields sub-optimal results, we design a dual-agent architecture comprising a reasoning agent to execute extensive analytical chains, and a summary agent to critically evaluate and distill final outcomes. While our initial framework utilized Direct Preference Optimization (DPO), its off-policy nature fundamentally constrained reinforcement learning potential. To overcome these limitations, particularly for long-horizon video understanding, Insight-V++ introduces two novel algorithms, ST-GRPO and J-GRPO, which enhance spatial-temporal reasoning and improve evaluative robustness. Crucially, by leveraging reliable feedback from the summary agent, we guide an iterative reasoning path generation process, retraining the entire multi-agent system in a continuous, self-improving loop. Extensive experiments on base models like LLaVA-NeXT and Qwen2.5-VL demonstrate significant performance gains across challenging image and video reasoning benchmarks while preserving strong capabilities on traditional perception-focused tasks.

Insight-V++: Verso un Ragionamento Visivo Avanzato su Catene Lunghe con Modelli Linguistici Multimodali di Grandi Dimensioni

Insight-V++: Towards Advanced Long-Chain Visual Reasoning with Multimodal Large Language Models

Abstract

Support