ChatPaper.aiChatPaper

LlamaV-o1: Переосмысление пошагового визуального мышления в LLMs

LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs

January 10, 2025
Авторы: Omkar Thawakar, Dinura Dissanayake, Ketan More, Ritesh Thawkar, Ahmed Heakl, Noor Ahsan, Yuhao Li, Mohammed Zumri, Jean Lahoud, Rao Muhammad Anwer, Hisham Cholakkal, Ivan Laptev, Mubarak Shah, Fahad Shahbaz Khan, Salman Khan
cs.AI

Аннотация

Рассуждение является фундаментальной способностью для решения сложных многошаговых задач, особенно в визуальных контекстах, где последовательное пошаговое понимание является важным. Существующие подходы не имеют всесторонней структуры для оценки визуального рассуждения и не уделяют достаточного внимания пошаговому решению проблем. В этой связи мы предлагаем всестороннюю структуру для продвижения многошагового визуального рассуждения в больших языковых моделях (LLM) через три ключевых вклада. Во-первых, мы представляем визуальный бенчмарк, специально разработанный для оценки многошаговых задач рассуждения. Бенчмарк представляет разнообразный набор вызовов с восемью различными категориями, начиная от сложного визуального восприятия до научного рассуждения с более чем 4 тыс. шагов рассуждения в общей сложности, обеспечивая надежную оценку способностей LLM выполнять точное и интерпретируемое визуальное рассуждение на протяжении нескольких шагов. Во-вторых, мы предлагаем новую метрику, которая оценивает качество визуального рассуждения на уровне отдельных шагов, подчеркивая как правильность, так и логическую последовательность. Предложенная метрика предлагает более глубокие исследования производительности рассуждения по сравнению с традиционными метриками точности конечной задачи. В-третьих, мы представляем новую мультимодальную модель визуального рассуждения, названную LlamaV-o1, обученную с использованием подхода обучения по карте многократных шагов, где задачи постепенно организованы для облегчения пошагового приобретения навыков и решения проблем. Предложенная LlamaV-o1 разработана для многошагового рассуждения и учится пошагово через структурированную обучающую парадигму. Обширные эксперименты показывают, что наша LlamaV-o1 превосходит существующие модели с открытым исходным кодом и успешно справляется с закрытыми проприетарными моделями. По сравнению с недавним Llava-CoT, наша LlamaV-o1 достигает среднего балла 67,3 с абсолютным приростом 3,8\% по шести бенчмаркам, при этом в 5 раз быстрее во время масштабирования вывода. Наш бенчмарк, модель и код доступны публично.
English
Reasoning is a fundamental capability for solving complex multi-step problems, particularly in visual contexts where sequential step-wise understanding is essential. Existing approaches lack a comprehensive framework for evaluating visual reasoning and do not emphasize step-wise problem-solving. To this end, we propose a comprehensive framework for advancing step-by-step visual reasoning in large language models (LMMs) through three key contributions. First, we introduce a visual reasoning benchmark specifically designed to evaluate multi-step reasoning tasks. The benchmark presents a diverse set of challenges with eight different categories ranging from complex visual perception to scientific reasoning with over 4k reasoning steps in total, enabling robust evaluation of LLMs' abilities to perform accurate and interpretable visual reasoning across multiple steps. Second, we propose a novel metric that assesses visual reasoning quality at the granularity of individual steps, emphasizing both correctness and logical coherence. The proposed metric offers deeper insights into reasoning performance compared to traditional end-task accuracy metrics. Third, we present a new multimodal visual reasoning model, named LlamaV-o1, trained using a multi-step curriculum learning approach, where tasks are progressively organized to facilitate incremental skill acquisition and problem-solving. The proposed LlamaV-o1 is designed for multi-step reasoning and learns step-by-step through a structured training paradigm. Extensive experiments show that our LlamaV-o1 outperforms existing open-source models and performs favorably against close-source proprietary models. Compared to the recent Llava-CoT, our LlamaV-o1 achieves an average score of 67.3 with an absolute gain of 3.8\% across six benchmarks while being 5 times faster during inference scaling. Our benchmark, model, and code are publicly available.

Summary

AI-Generated Summary

PDF665January 13, 2025