LlamaV-o1: Repensando el Razonamiento Visual Paso a Paso en LLMs
LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs
January 10, 2025
Autores: Omkar Thawakar, Dinura Dissanayake, Ketan More, Ritesh Thawkar, Ahmed Heakl, Noor Ahsan, Yuhao Li, Mohammed Zumri, Jean Lahoud, Rao Muhammad Anwer, Hisham Cholakkal, Ivan Laptev, Mubarak Shah, Fahad Shahbaz Khan, Salman Khan
cs.AI
Resumen
El razonamiento es una capacidad fundamental para resolver problemas complejos de múltiples pasos, especialmente en contextos visuales donde la comprensión secuencial paso a paso es esencial. Los enfoques existentes carecen de un marco integral para evaluar el razonamiento visual y no enfatizan la resolución de problemas paso a paso. Con este fin, proponemos un marco integral para avanzar en el razonamiento visual paso a paso en modelos de lenguaje grandes (LLMs) a través de tres contribuciones clave. En primer lugar, presentamos un banco de pruebas de razonamiento visual específicamente diseñado para evaluar tareas de razonamiento de múltiples pasos. El banco de pruebas presenta un conjunto diverso de desafíos con ocho categorías diferentes que van desde la percepción visual compleja hasta el razonamiento científico con más de 4k pasos de razonamiento en total, lo que permite una evaluación sólida de las capacidades de los LLMs para realizar un razonamiento visual preciso e interpretable a lo largo de múltiples pasos. En segundo lugar, proponemos una métrica novedosa que evalúa la calidad del razonamiento visual en la granularidad de los pasos individuales, enfatizando tanto la corrección como la coherencia lógica. La métrica propuesta ofrece una comprensión más profunda del rendimiento de razonamiento en comparación con las métricas tradicionales de precisión de tareas finales. En tercer lugar, presentamos un nuevo modelo de razonamiento visual multimodal, llamado LlamaV-o1, entrenado utilizando un enfoque de aprendizaje de currículo de múltiples pasos, donde las tareas se organizan progresivamente para facilitar la adquisición incremental de habilidades y la resolución de problemas. El LlamaV-o1 propuesto está diseñado para el razonamiento de múltiples pasos y aprende paso a paso a través de un paradigma de entrenamiento estructurado. Experimentos extensos muestran que nuestro LlamaV-o1 supera a los modelos de código abierto existentes y se desempeña favorablemente en comparación con modelos propietarios de código cerrado. En comparación con el reciente Llava-CoT, nuestro LlamaV-o1 logra una puntuación promedio de 67.3 con una ganancia absoluta del 3.8\% en seis bancos de pruebas, siendo 5 veces más rápido durante la escalabilidad de inferencia. Nuestro banco de pruebas, modelo y código están disponibles públicamente.
English
Reasoning is a fundamental capability for solving complex multi-step
problems, particularly in visual contexts where sequential step-wise
understanding is essential. Existing approaches lack a comprehensive framework
for evaluating visual reasoning and do not emphasize step-wise problem-solving.
To this end, we propose a comprehensive framework for advancing step-by-step
visual reasoning in large language models (LMMs) through three key
contributions. First, we introduce a visual reasoning benchmark specifically
designed to evaluate multi-step reasoning tasks. The benchmark presents a
diverse set of challenges with eight different categories ranging from complex
visual perception to scientific reasoning with over 4k reasoning steps in
total, enabling robust evaluation of LLMs' abilities to perform accurate and
interpretable visual reasoning across multiple steps. Second, we propose a
novel metric that assesses visual reasoning quality at the granularity of
individual steps, emphasizing both correctness and logical coherence. The
proposed metric offers deeper insights into reasoning performance compared to
traditional end-task accuracy metrics. Third, we present a new multimodal
visual reasoning model, named LlamaV-o1, trained using a multi-step curriculum
learning approach, where tasks are progressively organized to facilitate
incremental skill acquisition and problem-solving. The proposed LlamaV-o1 is
designed for multi-step reasoning and learns step-by-step through a structured
training paradigm. Extensive experiments show that our LlamaV-o1 outperforms
existing open-source models and performs favorably against close-source
proprietary models. Compared to the recent Llava-CoT, our LlamaV-o1 achieves an
average score of 67.3 with an absolute gain of 3.8\% across six benchmarks
while being 5 times faster during inference scaling. Our benchmark, model, and
code are publicly available.Summary
AI-Generated Summary