Insight-V++: Auf dem Weg zu fortschrittlicher visueller Langketten-Reasoning mit multimodalen Large Language Models
Insight-V++: Towards Advanced Long-Chain Visual Reasoning with Multimodal Large Language Models
March 18, 2026
Autoren: Yuhao Dong, Zuyan Liu, Shulin Tian, Yongming Rao, Ziwei Liu
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben durch erweitertes Reasoning während der Testphase bemerkenswerte Zuverlässigkeit und fortgeschrittene Fähigkeiten erreicht. Die Übertragung dieser Fähigkeiten auf multimodale große Sprachmodelle (MLLMs) stellt jedoch eine erhebliche Herausforderung dar, hauptsächlich aufgrund eines kritischen Mangels an hochwertigen Daten für langkettiges Reasoning und optimierten Trainingspipelines. Um diese Lücke zu schließen, präsentieren wir einen vereinheitlichten Multi-Agenten-Ansatz für visuelles Reasoning, der sich systematisch aus unserem bildzentrierten Basismodell Insight-V zu einer generalisierten raumzeitlichen Architektur, Insight-V++, entwickelt. Zunächst schlagen wir eine skalierbare Datengenerierungspipeline mit mehrgranularer Bewertung vor, die strukturierte, komplexe Reasoning-Pfade über Bild- und Videodomänen hinweg ohne menschliches Eingreifen autonom synthetisiert. Da die direkte Supervision von MLLMs mit derart komplexen Daten suboptimale Ergebnisse liefert, entwerfen wir eine Dual-Agenten-Architektur, bestehend aus einem Reasoning-Agenten zur Ausführung umfangreicher analytischer Ketten und einem Summarization-Agenten zur kritischen Bewertung und Destillation finaler Ergebnisse. Während unser initialer Framework Direct Preference Optimization (DPO) nutzte, limitierte dessen Off-Policy-Charakter grundlegend das Potenzial des Reinforcement Learnings. Um diese Limitationen, insbesondere für langfristiges Videoverständnis, zu überwinden, führt Insight-V++ zwei neuartige Algorithmen ein – ST-GRPO und J-GRPO –, die das raumzeitliche Reasoning verbessern und die Bewertungsrobustheit erhöhen. Entscheidend ist, dass wir durch die Nutzung zuverlässiger Rückmeldungen des Summarization-Agenten einen iterativen Reasoning-Pfadgenerierungsprozess steuern und das gesamte Multi-Agenten-System in einem kontinuierlichen, sich selbst verbessernden Loop neu trainieren. Umfangreiche Experimente mit Basismodellen wie LLaVA-NeXT und Qwen2.5-VL demonstrieren signifikante Leistungssteigerungen in anspruchsvollen Bild- und Video-Reasoning-Benchmarks bei gleichzeitiger Bewahrung starker Fähigkeiten in traditionellen, wahrnehmungsfokussierten Aufgaben.
English
Large Language Models (LLMs) have achieved remarkable reliability and advanced capabilities through extended test-time reasoning. However, extending these capabilities to Multi-modal Large Language Models (MLLMs) remains a significant challenge due to a critical scarcity of high-quality, long-chain reasoning data and optimized training pipelines. To bridge this gap, we present a unified multi-agent visual reasoning framework that systematically evolves from our foundational image-centric model, Insight-V, into a generalized spatial-temporal architecture, Insight-V++. We first propose a scalable data generation pipeline equipped with multi-granularity assessment that autonomously synthesizes structured, complex reasoning trajectories across image and video domains without human intervention. Recognizing that directly supervising MLLMs with such intricate data yields sub-optimal results, we design a dual-agent architecture comprising a reasoning agent to execute extensive analytical chains, and a summary agent to critically evaluate and distill final outcomes. While our initial framework utilized Direct Preference Optimization (DPO), its off-policy nature fundamentally constrained reinforcement learning potential. To overcome these limitations, particularly for long-horizon video understanding, Insight-V++ introduces two novel algorithms, ST-GRPO and J-GRPO, which enhance spatial-temporal reasoning and improve evaluative robustness. Crucially, by leveraging reliable feedback from the summary agent, we guide an iterative reasoning path generation process, retraining the entire multi-agent system in a continuous, self-improving loop. Extensive experiments on base models like LLaVA-NeXT and Qwen2.5-VL demonstrate significant performance gains across challenging image and video reasoning benchmarks while preserving strong capabilities on traditional perception-focused tasks.