LlamaV-o1: Heroverweging van Stapsgewijze Visuele Redenering in LLM's
LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs
January 10, 2025
Auteurs: Omkar Thawakar, Dinura Dissanayake, Ketan More, Ritesh Thawkar, Ahmed Heakl, Noor Ahsan, Yuhao Li, Mohammed Zumri, Jean Lahoud, Rao Muhammad Anwer, Hisham Cholakkal, Ivan Laptev, Mubarak Shah, Fahad Shahbaz Khan, Salman Khan
cs.AI
Samenvatting
Redeneren is een fundamentele vaardigheid voor het oplossen van complexe meerstapsproblemen, met name in visuele contexten waar sequentiële stapsgewijze begrip essentieel is. Bestaande benaderingen missen een allesomvattend kader voor het evalueren van visueel redeneren en benadrukken niet stapsgewijs probleemoplossen. Om deze reden stellen wij een allesomvattend kader voor ter bevordering van stapsgewijs visueel redeneren in grote taalmodellen (LMM's) door middel van drie belangrijke bijdragen. Ten eerste introduceren we een visuele redeneerbenchmark die specifiek is ontworpen om meerstapsredeneertaken te evalueren. De benchmark presenteert een gevarieerde set uitdagingen met acht verschillende categorieën, variërend van complex visueel waarnemen tot wetenschappelijk redeneren met in totaal meer dan 4k redeneerstappen, waardoor een robuuste evaluatie van de mogelijkheden van LLM's om nauwkeurig en interpreteerbaar visueel redeneren over meerdere stappen uit te voeren mogelijk is. Ten tweede stellen we een nieuwe metriek voor die de kwaliteit van visueel redeneren beoordeelt op het niveau van individuele stappen, waarbij zowel correctheid als logische coherentie worden benadrukt. De voorgestelde metriek biedt diepgaandere inzichten in redeneerprestaties in vergelijking met traditionele nauwkeurigheidsmetrieken voor eindtaken. Ten derde presenteren we een nieuw multimodaal visueel redeneringsmodel, genaamd LlamaV-o1, getraind met behulp van een aanpak voor curriculum learning in meerdere stappen, waarbij taken progressief worden georganiseerd om incrementele vaardigheidsverwerving en probleemoplossing te vergemakkelijken. De voorgestelde LlamaV-o1 is ontworpen voor meerstapsredeneren en leert stapsgewijs via een gestructureerd trainingsparadigma. Uitgebreide experimenten tonen aan dat onze LlamaV-o1 beter presteert dan bestaande open-source modellen en gunstig presteert ten opzichte van gesloten-source eigen modellen. Vergeleken met de recente Llava-CoT behaalt onze LlamaV-o1 een gemiddelde score van 67.3 met een absoluut winstpercentage van 3.8\% over zes benchmarks, terwijl het 5 keer sneller is tijdens inferentie-schaalvergroting. Onze benchmark, model en code zijn openbaar beschikbaar.
English
Reasoning is a fundamental capability for solving complex multi-step
problems, particularly in visual contexts where sequential step-wise
understanding is essential. Existing approaches lack a comprehensive framework
for evaluating visual reasoning and do not emphasize step-wise problem-solving.
To this end, we propose a comprehensive framework for advancing step-by-step
visual reasoning in large language models (LMMs) through three key
contributions. First, we introduce a visual reasoning benchmark specifically
designed to evaluate multi-step reasoning tasks. The benchmark presents a
diverse set of challenges with eight different categories ranging from complex
visual perception to scientific reasoning with over 4k reasoning steps in
total, enabling robust evaluation of LLMs' abilities to perform accurate and
interpretable visual reasoning across multiple steps. Second, we propose a
novel metric that assesses visual reasoning quality at the granularity of
individual steps, emphasizing both correctness and logical coherence. The
proposed metric offers deeper insights into reasoning performance compared to
traditional end-task accuracy metrics. Third, we present a new multimodal
visual reasoning model, named LlamaV-o1, trained using a multi-step curriculum
learning approach, where tasks are progressively organized to facilitate
incremental skill acquisition and problem-solving. The proposed LlamaV-o1 is
designed for multi-step reasoning and learns step-by-step through a structured
training paradigm. Extensive experiments show that our LlamaV-o1 outperforms
existing open-source models and performs favorably against close-source
proprietary models. Compared to the recent Llava-CoT, our LlamaV-o1 achieves an
average score of 67.3 with an absolute gain of 3.8\% across six benchmarks
while being 5 times faster during inference scaling. Our benchmark, model, and
code are publicly available.Summary
AI-Generated Summary