LLaVA-o1: Permitir a los Modelos de Lenguaje Visual Razonar Paso a Paso

Resumen

Los grandes modelos de lenguaje han demostrado avances sustanciales en capacidades de razonamiento, especialmente a través de la escalabilidad en tiempo de inferencia, como se ilustra en modelos como el o1 de OpenAI. Sin embargo, los Modelos Visión-Lenguaje (VLMs) actuales a menudo tienen dificultades para realizar razonamientos sistemáticos y estructurados, especialmente al enfrentarse a tareas complejas de pregunta-respuesta visual. En este trabajo, presentamos LLaVA-o1, un nuevo VLM diseñado para llevar a cabo razonamientos autónomos en múltiples etapas. A diferencia de la activación de cadenas de pensamiento, LLaVA-o1 se involucra de forma independiente en etapas secuenciales de resumen, interpretación visual, razonamiento lógico y generación de conclusiones. Este enfoque estructurado permite a LLaVA-o1 lograr mejoras significativas en precisión en tareas intensivas en razonamiento. Para lograr esto, compilamos el conjunto de datos LLaVA-o1-100k, integrando muestras de diversas fuentes de preguntas y respuestas visuales y proporcionando anotaciones de razonamiento estructurado. Además, proponemos un método de búsqueda de haz a nivel de etapa en tiempo de inferencia, que permite una escalabilidad efectiva en tiempo de inferencia. Notablemente, con solo 100k muestras de entrenamiento y un método de escalado en tiempo de inferencia simple pero efectivo, LLaVA-o1 no solo supera a su modelo base en un 8.9% en una amplia gama de pruebas de razonamiento multimodal, sino que también supera el rendimiento de modelos más grandes e incluso de código cerrado, como Gemini-1.5-pro, GPT-4o-mini y Llama-3.2-90B-Vision-Instruct.

English

Large language models have demonstrated substantial advancements in reasoning capabilities, particularly through inference-time scaling, as illustrated by models such as OpenAI's o1. However, current Vision-Language Models (VLMs) often struggle to perform systematic and structured reasoning, especially when handling complex visual question-answering tasks. In this work, we introduce LLaVA-o1, a novel VLM designed to conduct autonomous multistage reasoning. Unlike chain-of-thought prompting, LLaVA-o1 independently engages in sequential stages of summarization, visual interpretation, logical reasoning, and conclusion generation. This structured approach enables LLaVA-o1 to achieve marked improvements in precision on reasoning-intensive tasks. To accomplish this, we compile the LLaVA-o1-100k dataset, integrating samples from various visual question answering sources and providing structured reasoning annotations. Besides, we propose an inference-time stage-level beam search method, which enables effective inference-time scaling. Remarkably, with only 100k training samples and a simple yet effective inference time scaling method, LLaVA-o1 not only outperforms its base model by 8.9% on a wide range of multimodal reasoning benchmarks, but also surpasses the performance of larger and even closed-source models, such as Gemini-1.5-pro, GPT-4o-mini, and Llama-3.2-90B-Vision-Instruct.

LLaVA-o1: Permitir a los Modelos de Lenguaje Visual Razonar Paso a Paso

LLaVA-o1: Let Vision Language Models Reason Step-by-Step

Resumen

Support