Insight-V: Explorando o Raciocínio Visual de Cadeia Longa com Modelos de Linguagem Multimodais de Grande Escala
Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models
November 21, 2024
Autores: Yuhao Dong, Zuyan Liu, Hai-Long Sun, Jingkang Yang, Winston Hu, Yongming Rao, Ziwei Liu
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala (LLMs) demonstram capacidades aprimoradas e confiabilidade ao raciocinar mais, evoluindo de prompts de Cadeia de Pensamento para soluções de nível de produto como o OpenAI o1. Apesar de vários esforços para melhorar o raciocínio dos LLMs, dados de raciocínio de longa cadeia de alta qualidade e pipelines de treinamento otimizados ainda permanecem inadequadamente explorados em tarefas de visão e linguagem. Neste artigo, apresentamos o Insight-V, um esforço inicial para 1) produzir de forma escalável dados de raciocínio longos e robustos para tarefas complexas multimodais, e 2) um pipeline de treinamento eficaz para aprimorar as capacidades de raciocínio de modelos de linguagem de grande escala multimodais (MLLMs). Especificamente, para criar dados de raciocínio longos e estruturados sem trabalho humano, projetamos um pipeline de dois passos com uma estratégia progressiva para gerar caminhos de raciocínio suficientemente longos e diversos, e um método de avaliação de multi-granularidade para garantir a qualidade dos dados. Observamos que supervisionar diretamente MLLMs com dados de raciocínio longos e complexos não resultará em uma capacidade de raciocínio ideal. Para enfrentar esse problema, projetamos um sistema multiagente composto por um agente de raciocínio dedicado a realizar raciocínio de longa cadeia e um agente de resumo treinado para avaliar e resumir os resultados do raciocínio. Além disso, incorporamos um algoritmo DPO iterativo para aprimorar a estabilidade e qualidade de geração do agente de raciocínio. Com base no modelo popular LLaVA-NeXT e em nosso MLLM base mais forte, demonstramos ganhos significativos de desempenho em benchmarks multimodais desafiadores que exigem raciocínio visual. Beneficiando-se do nosso sistema multiagente, o Insight-V também pode manter ou melhorar facilmente o desempenho em tarefas multimodais focadas na percepção.
English
Large Language Models (LLMs) demonstrate enhanced capabilities and
reliability by reasoning more, evolving from Chain-of-Thought prompting to
product-level solutions like OpenAI o1. Despite various efforts to improve LLM
reasoning, high-quality long-chain reasoning data and optimized training
pipelines still remain inadequately explored in vision-language tasks. In this
paper, we present Insight-V, an early effort to 1) scalably produce long and
robust reasoning data for complex multi-modal tasks, and 2) an effective
training pipeline to enhance the reasoning capabilities of multi-modal large
language models (MLLMs). Specifically, to create long and structured reasoning
data without human labor, we design a two-step pipeline with a progressive
strategy to generate sufficiently long and diverse reasoning paths and a
multi-granularity assessment method to ensure data quality. We observe that
directly supervising MLLMs with such long and complex reasoning data will not
yield ideal reasoning ability. To tackle this problem, we design a multi-agent
system consisting of a reasoning agent dedicated to performing long-chain
reasoning and a summary agent trained to judge and summarize reasoning results.
We further incorporate an iterative DPO algorithm to enhance the reasoning
agent's generation stability and quality. Based on the popular LLaVA-NeXT model
and our stronger base MLLM, we demonstrate significant performance gains across
challenging multi-modal benchmarks requiring visual reasoning. Benefiting from
our multi-agent system, Insight-V can also easily maintain or improve
performance on perception-focused multi-modal tasks.Summary
AI-Generated Summary