Insight-V: Explorando el Razonamiento Visual de Cadena Larga con Modelos de Lenguaje Multimodal de Gran Escala

Resumen

Los Modelos de Lenguaje Grandes (LLMs) demuestran capacidades mejoradas y confiabilidad al razonar más, evolucionando desde la generación de cadenas de pensamiento hasta soluciones a nivel de producto como OpenAI o1. A pesar de varios esfuerzos por mejorar el razonamiento de los LLMs, los datos de razonamiento de larga cadena de alta calidad y los flujos de entrenamiento optimizados aún permanecen insuficientemente explorados en tareas de visión y lenguaje. En este artículo, presentamos Insight-V, un esfuerzo inicial para 1) producir de manera escalable datos de razonamiento largos y robustos para tareas complejas multimodales, y 2) un flujo de entrenamiento efectivo para mejorar las capacidades de razonamiento de los Modelos de Lenguaje Grandes multimodales (MLLMs). Específicamente, para crear datos de razonamiento largos y estructurados sin la intervención humana, diseñamos un flujo de trabajo de dos pasos con una estrategia progresiva para generar caminos de razonamiento lo suficientemente largos y diversos, y un método de evaluación de múltiples granularidades para garantizar la calidad de los datos. Observamos que supervisar directamente a los MLLMs con datos de razonamiento tan largos y complejos no producirá una capacidad de razonamiento ideal. Para abordar este problema, diseñamos un sistema multiagente que consta de un agente de razonamiento dedicado a realizar razonamientos de cadena larga y un agente de resumen entrenado para juzgar y resumir los resultados del razonamiento. Además, incorporamos un algoritmo DPO iterativo para mejorar la estabilidad y calidad de generación del agente de razonamiento. Basándonos en el popular modelo LLaVA-NeXT y en nuestro sólido MLLM base, demostramos ganancias significativas de rendimiento en desafiantes referencias multimodales que requieren razonamiento visual. Gracias a nuestro sistema multiagente, Insight-V también puede mantener o mejorar fácilmente el rendimiento en tareas multimodales centradas en la percepción.

English

Large Language Models (LLMs) demonstrate enhanced capabilities and reliability by reasoning more, evolving from Chain-of-Thought prompting to product-level solutions like OpenAI o1. Despite various efforts to improve LLM reasoning, high-quality long-chain reasoning data and optimized training pipelines still remain inadequately explored in vision-language tasks. In this paper, we present Insight-V, an early effort to 1) scalably produce long and robust reasoning data for complex multi-modal tasks, and 2) an effective training pipeline to enhance the reasoning capabilities of multi-modal large language models (MLLMs). Specifically, to create long and structured reasoning data without human labor, we design a two-step pipeline with a progressive strategy to generate sufficiently long and diverse reasoning paths and a multi-granularity assessment method to ensure data quality. We observe that directly supervising MLLMs with such long and complex reasoning data will not yield ideal reasoning ability. To tackle this problem, we design a multi-agent system consisting of a reasoning agent dedicated to performing long-chain reasoning and a summary agent trained to judge and summarize reasoning results. We further incorporate an iterative DPO algorithm to enhance the reasoning agent's generation stability and quality. Based on the popular LLaVA-NeXT model and our stronger base MLLM, we demonstrate significant performance gains across challenging multi-modal benchmarks requiring visual reasoning. Benefiting from our multi-agent system, Insight-V can also easily maintain or improve performance on perception-focused multi-modal tasks.

Insight-V: Explorando el Razonamiento Visual de Cadena Larga con Modelos de Lenguaje Multimodal de Gran Escala

Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models

Resumen

Support