LlamaV-o1 : Repenser le raisonnement visuel étape par étape dans les LLM
LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs
January 10, 2025
Auteurs: Omkar Thawakar, Dinura Dissanayake, Ketan More, Ritesh Thawkar, Ahmed Heakl, Noor Ahsan, Yuhao Li, Mohammed Zumri, Jean Lahoud, Rao Muhammad Anwer, Hisham Cholakkal, Ivan Laptev, Mubarak Shah, Fahad Shahbaz Khan, Salman Khan
cs.AI
Résumé
Le raisonnement est une capacité fondamentale pour résoudre des problèmes complexes à plusieurs étapes, en particulier dans des contextes visuels où une compréhension séquentielle étape par étape est essentielle. Les approches existantes manquent d'un cadre complet pour évaluer le raisonnement visuel et ne mettent pas l'accent sur la résolution de problèmes étape par étape. À cette fin, nous proposons un cadre complet pour faire progresser le raisonnement visuel étape par étape dans de grands modèles de langage (LMMs) à travers trois contributions clés. Tout d'abord, nous introduisons un banc d'essai de raisonnement visuel spécifiquement conçu pour évaluer des tâches de raisonnement à plusieurs étapes. Le banc d'essai présente un ensemble diversifié de défis avec huit catégories différentes allant de la perception visuelle complexe au raisonnement scientifique avec plus de 4k étapes de raisonnement au total, permettant une évaluation robuste des capacités des LLMs à effectuer un raisonnement visuel précis et interprétable à travers plusieurs étapes. Deuxièmement, nous proposons une nouvelle métrique qui évalue la qualité du raisonnement visuel au niveau des étapes individuelles, mettant l'accent à la fois sur la correction et la cohérence logique. La métrique proposée offre des insights plus approfondis sur les performances de raisonnement par rapport aux métriques traditionnelles de précision de fin de tâche. Troisièmement, nous présentons un nouveau modèle de raisonnement visuel multimodal, nommé LlamaV-o1, formé en utilisant une approche d'apprentissage par curriculum à plusieurs étapes, où les tâches sont progressivement organisées pour faciliter l'acquisition de compétences incrémentielle et la résolution de problèmes. Le LlamaV-o1 proposé est conçu pour le raisonnement à plusieurs étapes et apprend étape par étape à travers un paradigme d'entraînement structuré. Des expériences approfondies montrent que notre LlamaV-o1 surpasse les modèles open-source existants et se comporte favorablement par rapport aux modèles propriétaires close-source. Comparé au récent Llava-CoT, notre LlamaV-o1 atteint un score moyen de 67,3 avec un gain absolu de 3,8\% à travers six bancs d'essai tout en étant 5 fois plus rapide lors de l'échelle d'inférence. Notre banc d'essai, modèle et code sont disponibles publiquement.
English
Reasoning is a fundamental capability for solving complex multi-step
problems, particularly in visual contexts where sequential step-wise
understanding is essential. Existing approaches lack a comprehensive framework
for evaluating visual reasoning and do not emphasize step-wise problem-solving.
To this end, we propose a comprehensive framework for advancing step-by-step
visual reasoning in large language models (LMMs) through three key
contributions. First, we introduce a visual reasoning benchmark specifically
designed to evaluate multi-step reasoning tasks. The benchmark presents a
diverse set of challenges with eight different categories ranging from complex
visual perception to scientific reasoning with over 4k reasoning steps in
total, enabling robust evaluation of LLMs' abilities to perform accurate and
interpretable visual reasoning across multiple steps. Second, we propose a
novel metric that assesses visual reasoning quality at the granularity of
individual steps, emphasizing both correctness and logical coherence. The
proposed metric offers deeper insights into reasoning performance compared to
traditional end-task accuracy metrics. Third, we present a new multimodal
visual reasoning model, named LlamaV-o1, trained using a multi-step curriculum
learning approach, where tasks are progressively organized to facilitate
incremental skill acquisition and problem-solving. The proposed LlamaV-o1 is
designed for multi-step reasoning and learns step-by-step through a structured
training paradigm. Extensive experiments show that our LlamaV-o1 outperforms
existing open-source models and performs favorably against close-source
proprietary models. Compared to the recent Llava-CoT, our LlamaV-o1 achieves an
average score of 67.3 with an absolute gain of 3.8\% across six benchmarks
while being 5 times faster during inference scaling. Our benchmark, model, and
code are publicly available.Summary
AI-Generated Summary