Исследование Insight-V: Исследование долгосрочного визуального рассуждения с помощью мультимодальных крупных языковых моделей.
Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models
November 21, 2024
Авторы: Yuhao Dong, Zuyan Liu, Hai-Long Sun, Jingkang Yang, Winston Hu, Yongming Rao, Ziwei Liu
cs.AI
Аннотация
Большие языковые модели (LLM) демонстрируют улучшенные возможности и надежность за счет более глубокого рассуждения, переходя от цепочки мыслей к решениям на уровне продукта, таким как OpenAI o1. Несмотря на различные усилия по улучшению рассуждения LLM, высококачественные данные для длительного цепочечного рассуждения и оптимизированные обучающие конвейеры до сих пор остаются недостаточно исследованными в задачах, связанных с визуально-языковым взаимодействием. В данной статье мы представляем Insight-V, раннее усилие по 1) масштабируемому созданию длинных и надежных данных для сложных мультимодальных задач и 2) эффективному обучающему конвейеру для улучшения возможностей рассуждения мультимодальных больших языковых моделей (MLLM). Конкретно, для создания длинных и структурированных данных для рассуждения без участия человека мы разрабатываем двухэтапный конвейер с пошаговой стратегией для генерации достаточно длинных и разнообразных путей рассуждения и метод оценки многогранности для обеспечения качества данных. Мы замечаем, что прямое надзорное обучение MLLM на таких длинных и сложных данных для рассуждения не приведет к идеальной способности рассуждения. Для решения этой проблемы мы разрабатываем мультиагентную систему, состоящую из агента рассуждения, специализированного на выполнении длительного цепочечного рассуждения, и агента резюмирования, обученного оценивать и подводить итоги результатов рассуждения. Мы также внедряем итеративный алгоритм DPO для улучшения стабильности и качества генерации агента рассуждения. Основываясь на популярной модели LLaVA-NeXT и нашей более сильной базовой MLLM, мы демонстрируем значительное улучшение производительности на сложных мультимодальных бенчмарках, требующих визуального рассуждения. Благодаря нашей мультиагентной системе, Insight-V также легко может поддерживать или улучшать производительность в задачах мультимодального восприятия.
English
Large Language Models (LLMs) demonstrate enhanced capabilities and
reliability by reasoning more, evolving from Chain-of-Thought prompting to
product-level solutions like OpenAI o1. Despite various efforts to improve LLM
reasoning, high-quality long-chain reasoning data and optimized training
pipelines still remain inadequately explored in vision-language tasks. In this
paper, we present Insight-V, an early effort to 1) scalably produce long and
robust reasoning data for complex multi-modal tasks, and 2) an effective
training pipeline to enhance the reasoning capabilities of multi-modal large
language models (MLLMs). Specifically, to create long and structured reasoning
data without human labor, we design a two-step pipeline with a progressive
strategy to generate sufficiently long and diverse reasoning paths and a
multi-granularity assessment method to ensure data quality. We observe that
directly supervising MLLMs with such long and complex reasoning data will not
yield ideal reasoning ability. To tackle this problem, we design a multi-agent
system consisting of a reasoning agent dedicated to performing long-chain
reasoning and a summary agent trained to judge and summarize reasoning results.
We further incorporate an iterative DPO algorithm to enhance the reasoning
agent's generation stability and quality. Based on the popular LLaVA-NeXT model
and our stronger base MLLM, we demonstrate significant performance gains across
challenging multi-modal benchmarks requiring visual reasoning. Benefiting from
our multi-agent system, Insight-V can also easily maintain or improve
performance on perception-focused multi-modal tasks.Summary
AI-Generated Summary