LLaVA-o1: Permitir que Modelos de Linguagem Visual Raciocinem Passo a Passo

Resumo

Grandes modelos de linguagem têm demonstrado avanços substanciais em capacidades de raciocínio, especialmente por meio do escalonamento no tempo de inferência, como ilustrado por modelos como o o1 da OpenAI. No entanto, os Modelos de Visão e Linguagem (VLMs) atuais frequentemente enfrentam dificuldades para realizar raciocínio sistemático e estruturado, especialmente ao lidar com tarefas complexas de pergunta e resposta visual. Neste trabalho, apresentamos o LLaVA-o1, um novo VLM projetado para realizar raciocínio autônomo em múltiplos estágios. Ao contrário da abordagem de encadeamento de pensamento, o LLaVA-o1 se envolve independentemente em estágios sequenciais de sumarização, interpretação visual, raciocínio lógico e geração de conclusões. Essa abordagem estruturada permite que o LLaVA-o1 alcance melhorias significativas em precisão em tarefas intensivas em raciocínio. Para alcançar isso, compilamos o conjunto de dados LLaVA-o1-100k, integrando amostras de várias fontes de perguntas e respostas visuais e fornecendo anotações de raciocínio estruturado. Além disso, propomos um método de busca em feixe em nível de estágio no tempo de inferência, que possibilita um escalonamento eficaz no tempo de inferência. Notavelmente, com apenas 100k amostras de treinamento e um método de escalonamento no tempo de inferência simples, porém eficaz, o LLaVA-o1 não apenas supera seu modelo base em 8,9% em uma ampla gama de benchmarks de raciocínio multimodal, mas também ultrapassa o desempenho de modelos maiores e até mesmo de código fechado, como o Gemini-1.5-pro, GPT-4o-mini e Llama-3.2-90B-Vision-Instruct.

English

Large language models have demonstrated substantial advancements in reasoning capabilities, particularly through inference-time scaling, as illustrated by models such as OpenAI's o1. However, current Vision-Language Models (VLMs) often struggle to perform systematic and structured reasoning, especially when handling complex visual question-answering tasks. In this work, we introduce LLaVA-o1, a novel VLM designed to conduct autonomous multistage reasoning. Unlike chain-of-thought prompting, LLaVA-o1 independently engages in sequential stages of summarization, visual interpretation, logical reasoning, and conclusion generation. This structured approach enables LLaVA-o1 to achieve marked improvements in precision on reasoning-intensive tasks. To accomplish this, we compile the LLaVA-o1-100k dataset, integrating samples from various visual question answering sources and providing structured reasoning annotations. Besides, we propose an inference-time stage-level beam search method, which enables effective inference-time scaling. Remarkably, with only 100k training samples and a simple yet effective inference time scaling method, LLaVA-o1 not only outperforms its base model by 8.9% on a wide range of multimodal reasoning benchmarks, but also surpasses the performance of larger and even closed-source models, such as Gemini-1.5-pro, GPT-4o-mini, and Llama-3.2-90B-Vision-Instruct.

LLaVA-o1: Permitir que Modelos de Linguagem Visual Raciocinem Passo a Passo

LLaVA-o1: Let Vision Language Models Reason Step-by-Step

Resumo

Support