Insight-V: Explorando el Razonamiento Visual de Cadena Larga con Modelos de Lenguaje Multimodal de Gran Escala
Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models
November 21, 2024
Autores: Yuhao Dong, Zuyan Liu, Hai-Long Sun, Jingkang Yang, Winston Hu, Yongming Rao, Ziwei Liu
cs.AI
Resumen
Los Modelos de Lenguaje Grandes (LLMs) demuestran capacidades mejoradas y confiabilidad al razonar más, evolucionando desde la generación de cadenas de pensamiento hasta soluciones a nivel de producto como OpenAI o1. A pesar de varios esfuerzos por mejorar el razonamiento de los LLMs, los datos de razonamiento de larga cadena de alta calidad y los flujos de entrenamiento optimizados aún permanecen insuficientemente explorados en tareas de visión y lenguaje. En este artículo, presentamos Insight-V, un esfuerzo inicial para 1) producir de manera escalable datos de razonamiento largos y robustos para tareas complejas multimodales, y 2) un flujo de entrenamiento efectivo para mejorar las capacidades de razonamiento de los Modelos de Lenguaje Grandes multimodales (MLLMs). Específicamente, para crear datos de razonamiento largos y estructurados sin la intervención humana, diseñamos un flujo de trabajo de dos pasos con una estrategia progresiva para generar caminos de razonamiento lo suficientemente largos y diversos, y un método de evaluación de múltiples granularidades para garantizar la calidad de los datos. Observamos que supervisar directamente a los MLLMs con datos de razonamiento tan largos y complejos no producirá una capacidad de razonamiento ideal. Para abordar este problema, diseñamos un sistema multiagente que consta de un agente de razonamiento dedicado a realizar razonamientos de cadena larga y un agente de resumen entrenado para juzgar y resumir los resultados del razonamiento. Además, incorporamos un algoritmo DPO iterativo para mejorar la estabilidad y calidad de generación del agente de razonamiento. Basándonos en el popular modelo LLaVA-NeXT y en nuestro sólido MLLM base, demostramos ganancias significativas de rendimiento en desafiantes referencias multimodales que requieren razonamiento visual. Gracias a nuestro sistema multiagente, Insight-V también puede mantener o mejorar fácilmente el rendimiento en tareas multimodales centradas en la percepción.
English
Large Language Models (LLMs) demonstrate enhanced capabilities and
reliability by reasoning more, evolving from Chain-of-Thought prompting to
product-level solutions like OpenAI o1. Despite various efforts to improve LLM
reasoning, high-quality long-chain reasoning data and optimized training
pipelines still remain inadequately explored in vision-language tasks. In this
paper, we present Insight-V, an early effort to 1) scalably produce long and
robust reasoning data for complex multi-modal tasks, and 2) an effective
training pipeline to enhance the reasoning capabilities of multi-modal large
language models (MLLMs). Specifically, to create long and structured reasoning
data without human labor, we design a two-step pipeline with a progressive
strategy to generate sufficiently long and diverse reasoning paths and a
multi-granularity assessment method to ensure data quality. We observe that
directly supervising MLLMs with such long and complex reasoning data will not
yield ideal reasoning ability. To tackle this problem, we design a multi-agent
system consisting of a reasoning agent dedicated to performing long-chain
reasoning and a summary agent trained to judge and summarize reasoning results.
We further incorporate an iterative DPO algorithm to enhance the reasoning
agent's generation stability and quality. Based on the popular LLaVA-NeXT model
and our stronger base MLLM, we demonstrate significant performance gains across
challenging multi-modal benchmarks requiring visual reasoning. Benefiting from
our multi-agent system, Insight-V can also easily maintain or improve
performance on perception-focused multi-modal tasks.Summary
AI-Generated Summary