LlamaV-o1: Переосмысление пошагового визуального мышления в LLMs
LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs
January 10, 2025
Авторы: Omkar Thawakar, Dinura Dissanayake, Ketan More, Ritesh Thawkar, Ahmed Heakl, Noor Ahsan, Yuhao Li, Mohammed Zumri, Jean Lahoud, Rao Muhammad Anwer, Hisham Cholakkal, Ivan Laptev, Mubarak Shah, Fahad Shahbaz Khan, Salman Khan
cs.AI
Аннотация
Рассуждение является фундаментальной способностью для решения сложных многошаговых задач, особенно в визуальных контекстах, где последовательное пошаговое понимание является важным. Существующие подходы не имеют всесторонней структуры для оценки визуального рассуждения и не уделяют достаточного внимания пошаговому решению проблем. В этой связи мы предлагаем всестороннюю структуру для продвижения многошагового визуального рассуждения в больших языковых моделях (LLM) через три ключевых вклада. Во-первых, мы представляем визуальный бенчмарк, специально разработанный для оценки многошаговых задач рассуждения. Бенчмарк представляет разнообразный набор вызовов с восемью различными категориями, начиная от сложного визуального восприятия до научного рассуждения с более чем 4 тыс. шагов рассуждения в общей сложности, обеспечивая надежную оценку способностей LLM выполнять точное и интерпретируемое визуальное рассуждение на протяжении нескольких шагов. Во-вторых, мы предлагаем новую метрику, которая оценивает качество визуального рассуждения на уровне отдельных шагов, подчеркивая как правильность, так и логическую последовательность. Предложенная метрика предлагает более глубокие исследования производительности рассуждения по сравнению с традиционными метриками точности конечной задачи. В-третьих, мы представляем новую мультимодальную модель визуального рассуждения, названную LlamaV-o1, обученную с использованием подхода обучения по карте многократных шагов, где задачи постепенно организованы для облегчения пошагового приобретения навыков и решения проблем. Предложенная LlamaV-o1 разработана для многошагового рассуждения и учится пошагово через структурированную обучающую парадигму. Обширные эксперименты показывают, что наша LlamaV-o1 превосходит существующие модели с открытым исходным кодом и успешно справляется с закрытыми проприетарными моделями. По сравнению с недавним Llava-CoT, наша LlamaV-o1 достигает среднего балла 67,3 с абсолютным приростом 3,8\% по шести бенчмаркам, при этом в 5 раз быстрее во время масштабирования вывода. Наш бенчмарк, модель и код доступны публично.
English
Reasoning is a fundamental capability for solving complex multi-step
problems, particularly in visual contexts where sequential step-wise
understanding is essential. Existing approaches lack a comprehensive framework
for evaluating visual reasoning and do not emphasize step-wise problem-solving.
To this end, we propose a comprehensive framework for advancing step-by-step
visual reasoning in large language models (LMMs) through three key
contributions. First, we introduce a visual reasoning benchmark specifically
designed to evaluate multi-step reasoning tasks. The benchmark presents a
diverse set of challenges with eight different categories ranging from complex
visual perception to scientific reasoning with over 4k reasoning steps in
total, enabling robust evaluation of LLMs' abilities to perform accurate and
interpretable visual reasoning across multiple steps. Second, we propose a
novel metric that assesses visual reasoning quality at the granularity of
individual steps, emphasizing both correctness and logical coherence. The
proposed metric offers deeper insights into reasoning performance compared to
traditional end-task accuracy metrics. Third, we present a new multimodal
visual reasoning model, named LlamaV-o1, trained using a multi-step curriculum
learning approach, where tasks are progressively organized to facilitate
incremental skill acquisition and problem-solving. The proposed LlamaV-o1 is
designed for multi-step reasoning and learns step-by-step through a structured
training paradigm. Extensive experiments show that our LlamaV-o1 outperforms
existing open-source models and performs favorably against close-source
proprietary models. Compared to the recent Llava-CoT, our LlamaV-o1 achieves an
average score of 67.3 with an absolute gain of 3.8\% across six benchmarks
while being 5 times faster during inference scaling. Our benchmark, model, and
code are publicly available.Summary
AI-Generated Summary