ChatPaper.aiChatPaper

Insight-V++: К продвинутому визуальному анализу длинных цепочек с помощью мультимодальных больших языковых моделей

Insight-V++: Towards Advanced Long-Chain Visual Reasoning with Multimodal Large Language Models

March 18, 2026
Авторы: Yuhao Dong, Zuyan Liu, Shulin Tian, Yongming Rao, Ziwei Liu
cs.AI

Аннотация

Крупные языковые модели (LLM) достигли выдающейся надежности и расширенных возможностей благодаря пролонгированному рассуждению на этапе тестирования. Однако расширение этих возможностей на мультимодальные крупные языковые модели (MLLM) остается серьезной проблемой из-за критической нехватки высококачественных данных для рассуждений с длинными цепочками и оптимизированных конвейеров обучения. Для преодоления этого разрыва мы представляем унифицированную мульти-агентную систему визуального мышления, которая систематически эволюционирует от нашей базовой ориентированной на изображения модели Insight-V в обобщенную пространственно-временную архитектуру Insight-V++. Сначала мы предлагаем масштабируемый конвейер генерации данных, оснащенный многоуровневой оценкой, который автономно синтезирует структурированные, сложные траектории рассуждений в областях изображений и видео без вмешательства человека. Понимая, что прямое обучение MLLM на таких сложных данных дает неоптимальные результаты, мы разрабатываем двух-агентную архитектуру, состоящую из агента рассуждений для выполнения обширных аналитических цепочек и агента-суммаризатора для критической оценки и выделения итоговых результатов. Хотя наша первоначальная система использовала оптимизацию прямых предпочтений (DPO), ее внеполитическая природа фундаментально ограничивала потенциал обучения с подкреплением. Для преодоления этих ограничений, особенно в контексте понимания длинных видео, Insight-V++ вводит два новых алгоритма, ST-GRPO и J-GRPO, которые улучшают пространственно-временное рассуждение и повышают устойчивость оценки. Ключевым моментом является то, что, используя надежную обратную связь от агента-суммаризатора, мы направляем итеративный процесс генерации путей рассуждений, переобучая всю мульти-агентную систему в непрерывном, самосовершенствующемся цикле. Многочисленные эксперименты на базовых моделях, таких как LLaVA-NeXT и Qwen2.5-VL, демонстрируют значительный прирост производительности на сложных тестах для рассуждений над изображениями и видео, при сохранении высоких способностей на традиционных задачах, сфокусированных на восприятии.
English
Large Language Models (LLMs) have achieved remarkable reliability and advanced capabilities through extended test-time reasoning. However, extending these capabilities to Multi-modal Large Language Models (MLLMs) remains a significant challenge due to a critical scarcity of high-quality, long-chain reasoning data and optimized training pipelines. To bridge this gap, we present a unified multi-agent visual reasoning framework that systematically evolves from our foundational image-centric model, Insight-V, into a generalized spatial-temporal architecture, Insight-V++. We first propose a scalable data generation pipeline equipped with multi-granularity assessment that autonomously synthesizes structured, complex reasoning trajectories across image and video domains without human intervention. Recognizing that directly supervising MLLMs with such intricate data yields sub-optimal results, we design a dual-agent architecture comprising a reasoning agent to execute extensive analytical chains, and a summary agent to critically evaluate and distill final outcomes. While our initial framework utilized Direct Preference Optimization (DPO), its off-policy nature fundamentally constrained reinforcement learning potential. To overcome these limitations, particularly for long-horizon video understanding, Insight-V++ introduces two novel algorithms, ST-GRPO and J-GRPO, which enhance spatial-temporal reasoning and improve evaluative robustness. Crucially, by leveraging reliable feedback from the summary agent, we guide an iterative reasoning path generation process, retraining the entire multi-agent system in a continuous, self-improving loop. Extensive experiments on base models like LLaVA-NeXT and Qwen2.5-VL demonstrate significant performance gains across challenging image and video reasoning benchmarks while preserving strong capabilities on traditional perception-focused tasks.
PDF102March 25, 2026