Insight-V++: Op weg naar geavanceerde visuele redeneervaardigheden voor lange ketens met multimodale grote taalmodel

Samenvatting

Grootschalige Taalmodellen (LLM's) hebben opmerkelijke betrouwbaarheid en geavanceerde capaciteiten bereikt door uitgebreide redeneerprocessen tijdens testtijd. Het uitbreiden van deze capaciteiten naar Multimodale Grootschalige Taalmodellen (MLLM's) blijft echter een aanzienlijke uitdaging, voornamelijk door een kritisch tekort aan hoogwaardige, lange-redeneerketendata en geoptimaliseerde trainingspijplijnen. Om deze kloof te overbruggen, presenteren we een verenigd multi-agent visueel redeneerkader dat zich systematisch ontwikkelt vanuit ons fundamentele, beeldgerichte model Insight-V naar een gegeneraliseerde ruimtelijk-temporele architectuur, Insight-V++. We introduceren eerst een schaalbare datageneratiepijplijn, uitgerust met multi-granulariteitsbeoordeling, die autonoom gestructureerde, complexe redeneertrajecten synthetiseert over beeld- en videodomeinen heen, zonder menselijke tussenkomst. Omdat we erkennen dat het direct aansturen van MLLM's met dergelijk ingewikkelde data suboptimale resultaten oplevert, ontwerpen we een dual-agent architectuur bestaande uit een redeneeragent om uitgebreide analytische ketens uit te voeren, en een samenvattingsagent om de eindresultaten kritisch te evalueren en te destilleren. Hoewel ons initiële framework Direct Preference Optimization (DPO) gebruikte, belemmerde het *off-policy* karakter fundamenteel het potentieel voor reinforcement learning. Om deze beperkingen te overwinnen, met name voor videobegrip op lange termijn, introduceert Insight-V++ twee nieuwe algoritmen, ST-GRPO en J-GRPO, die het ruimtelijk-temporeel redeneren verbeteren en de evaluatierobustheid vergroten. Cruciaal is dat we door gebruik te maken van betrouwbare feedback van de samenvattingsagent, een iteratief proces voor het genereren van redeneerpaden sturen, waarbij het gehele multi-agent systeem opnieuw wordt getraind in een continu, zelfverbeterende lus. Uitgebreide experimenten op basismodellen zoals LLaVA-NeXT en Qwen2.5-VL demonstreren significante prestatieverbeteringen op uitdagende beeld- en videoredeneerbenchmarks, terwijl sterke capaciteiten op traditionele, perceptiegerichte taken behouden blijven.

English

Large Language Models (LLMs) have achieved remarkable reliability and advanced capabilities through extended test-time reasoning. However, extending these capabilities to Multi-modal Large Language Models (MLLMs) remains a significant challenge due to a critical scarcity of high-quality, long-chain reasoning data and optimized training pipelines. To bridge this gap, we present a unified multi-agent visual reasoning framework that systematically evolves from our foundational image-centric model, Insight-V, into a generalized spatial-temporal architecture, Insight-V++. We first propose a scalable data generation pipeline equipped with multi-granularity assessment that autonomously synthesizes structured, complex reasoning trajectories across image and video domains without human intervention. Recognizing that directly supervising MLLMs with such intricate data yields sub-optimal results, we design a dual-agent architecture comprising a reasoning agent to execute extensive analytical chains, and a summary agent to critically evaluate and distill final outcomes. While our initial framework utilized Direct Preference Optimization (DPO), its off-policy nature fundamentally constrained reinforcement learning potential. To overcome these limitations, particularly for long-horizon video understanding, Insight-V++ introduces two novel algorithms, ST-GRPO and J-GRPO, which enhance spatial-temporal reasoning and improve evaluative robustness. Crucially, by leveraging reliable feedback from the summary agent, we guide an iterative reasoning path generation process, retraining the entire multi-agent system in a continuous, self-improving loop. Extensive experiments on base models like LLaVA-NeXT and Qwen2.5-VL demonstrate significant performance gains across challenging image and video reasoning benchmarks while preserving strong capabilities on traditional perception-focused tasks.

Insight-V++: Op weg naar geavanceerde visuele redeneervaardigheden voor lange ketens met multimodale grote taalmodel

Insight-V++: Towards Advanced Long-Chain Visual Reasoning with Multimodal Large Language Models

Samenvatting

Support