LLaVA-o1: Permitir que Modelos de Linguagem Visual Raciocinem Passo a PassoLLaVA-o1: Let Vision Language Models Reason Step-by-Step
Grandes modelos de linguagem têm demonstrado avanços substanciais em capacidades de raciocínio, especialmente por meio do escalonamento no tempo de inferência, como ilustrado por modelos como o o1 da OpenAI. No entanto, os Modelos de Visão e Linguagem (VLMs) atuais frequentemente enfrentam dificuldades para realizar raciocínio sistemático e estruturado, especialmente ao lidar com tarefas complexas de pergunta e resposta visual. Neste trabalho, apresentamos o LLaVA-o1, um novo VLM projetado para realizar raciocínio autônomo em múltiplos estágios. Ao contrário da abordagem de encadeamento de pensamento, o LLaVA-o1 se envolve independentemente em estágios sequenciais de sumarização, interpretação visual, raciocínio lógico e geração de conclusões. Essa abordagem estruturada permite que o LLaVA-o1 alcance melhorias significativas em precisão em tarefas intensivas em raciocínio. Para alcançar isso, compilamos o conjunto de dados LLaVA-o1-100k, integrando amostras de várias fontes de perguntas e respostas visuais e fornecendo anotações de raciocínio estruturado. Além disso, propomos um método de busca em feixe em nível de estágio no tempo de inferência, que possibilita um escalonamento eficaz no tempo de inferência. Notavelmente, com apenas 100k amostras de treinamento e um método de escalonamento no tempo de inferência simples, porém eficaz, o LLaVA-o1 não apenas supera seu modelo base em 8,9% em uma ampla gama de benchmarks de raciocínio multimodal, mas também ultrapassa o desempenho de modelos maiores e até mesmo de código fechado, como o Gemini-1.5-pro, GPT-4o-mini e Llama-3.2-90B-Vision-Instruct.