LLaVA-o1: Permitir que Modelos de Linguagem Visual Raciocinem Passo a Passo
LLaVA-o1: Let Vision Language Models Reason Step-by-Step
November 15, 2024
Autores: Guowei Xu, Peng Jin, Li Hao, Yibing Song, Lichao Sun, Li Yuan
cs.AI
Resumo
Grandes modelos de linguagem têm demonstrado avanços substanciais em capacidades de raciocínio, especialmente por meio do escalonamento no tempo de inferência, como ilustrado por modelos como o o1 da OpenAI. No entanto, os Modelos de Visão e Linguagem (VLMs) atuais frequentemente enfrentam dificuldades para realizar raciocínio sistemático e estruturado, especialmente ao lidar com tarefas complexas de pergunta e resposta visual. Neste trabalho, apresentamos o LLaVA-o1, um novo VLM projetado para realizar raciocínio autônomo em múltiplos estágios. Ao contrário da abordagem de encadeamento de pensamento, o LLaVA-o1 se envolve independentemente em estágios sequenciais de sumarização, interpretação visual, raciocínio lógico e geração de conclusões. Essa abordagem estruturada permite que o LLaVA-o1 alcance melhorias significativas em precisão em tarefas intensivas em raciocínio. Para alcançar isso, compilamos o conjunto de dados LLaVA-o1-100k, integrando amostras de várias fontes de perguntas e respostas visuais e fornecendo anotações de raciocínio estruturado. Além disso, propomos um método de busca em feixe em nível de estágio no tempo de inferência, que possibilita um escalonamento eficaz no tempo de inferência. Notavelmente, com apenas 100k amostras de treinamento e um método de escalonamento no tempo de inferência simples, porém eficaz, o LLaVA-o1 não apenas supera seu modelo base em 8,9% em uma ampla gama de benchmarks de raciocínio multimodal, mas também ultrapassa o desempenho de modelos maiores e até mesmo de código fechado, como o Gemini-1.5-pro, GPT-4o-mini e Llama-3.2-90B-Vision-Instruct.
English
Large language models have demonstrated substantial advancements in reasoning
capabilities, particularly through inference-time scaling, as illustrated by
models such as OpenAI's o1. However, current Vision-Language Models (VLMs)
often struggle to perform systematic and structured reasoning, especially when
handling complex visual question-answering tasks. In this work, we introduce
LLaVA-o1, a novel VLM designed to conduct autonomous multistage reasoning.
Unlike chain-of-thought prompting, LLaVA-o1 independently engages in sequential
stages of summarization, visual interpretation, logical reasoning, and
conclusion generation. This structured approach enables LLaVA-o1 to achieve
marked improvements in precision on reasoning-intensive tasks. To accomplish
this, we compile the LLaVA-o1-100k dataset, integrating samples from various
visual question answering sources and providing structured reasoning
annotations. Besides, we propose an inference-time stage-level beam search
method, which enables effective inference-time scaling. Remarkably, with only
100k training samples and a simple yet effective inference time scaling method,
LLaVA-o1 not only outperforms its base model by 8.9% on a wide range of
multimodal reasoning benchmarks, but also surpasses the performance of larger
and even closed-source models, such as Gemini-1.5-pro, GPT-4o-mini, and
Llama-3.2-90B-Vision-Instruct.Summary
AI-Generated Summary