LLaVA-o1: Permitir a los Modelos de Lenguaje Visual Razonar Paso a Paso
LLaVA-o1: Let Vision Language Models Reason Step-by-Step
November 15, 2024
Autores: Guowei Xu, Peng Jin, Li Hao, Yibing Song, Lichao Sun, Li Yuan
cs.AI
Resumen
Los grandes modelos de lenguaje han demostrado avances sustanciales en capacidades de razonamiento, especialmente a través de la escalabilidad en tiempo de inferencia, como se ilustra en modelos como el o1 de OpenAI. Sin embargo, los Modelos Visión-Lenguaje (VLMs) actuales a menudo tienen dificultades para realizar razonamientos sistemáticos y estructurados, especialmente al enfrentarse a tareas complejas de pregunta-respuesta visual. En este trabajo, presentamos LLaVA-o1, un nuevo VLM diseñado para llevar a cabo razonamientos autónomos en múltiples etapas. A diferencia de la activación de cadenas de pensamiento, LLaVA-o1 se involucra de forma independiente en etapas secuenciales de resumen, interpretación visual, razonamiento lógico y generación de conclusiones. Este enfoque estructurado permite a LLaVA-o1 lograr mejoras significativas en precisión en tareas intensivas en razonamiento. Para lograr esto, compilamos el conjunto de datos LLaVA-o1-100k, integrando muestras de diversas fuentes de preguntas y respuestas visuales y proporcionando anotaciones de razonamiento estructurado. Además, proponemos un método de búsqueda de haz a nivel de etapa en tiempo de inferencia, que permite una escalabilidad efectiva en tiempo de inferencia. Notablemente, con solo 100k muestras de entrenamiento y un método de escalado en tiempo de inferencia simple pero efectivo, LLaVA-o1 no solo supera a su modelo base en un 8.9% en una amplia gama de pruebas de razonamiento multimodal, sino que también supera el rendimiento de modelos más grandes e incluso de código cerrado, como Gemini-1.5-pro, GPT-4o-mini y Llama-3.2-90B-Vision-Instruct.
English
Large language models have demonstrated substantial advancements in reasoning
capabilities, particularly through inference-time scaling, as illustrated by
models such as OpenAI's o1. However, current Vision-Language Models (VLMs)
often struggle to perform systematic and structured reasoning, especially when
handling complex visual question-answering tasks. In this work, we introduce
LLaVA-o1, a novel VLM designed to conduct autonomous multistage reasoning.
Unlike chain-of-thought prompting, LLaVA-o1 independently engages in sequential
stages of summarization, visual interpretation, logical reasoning, and
conclusion generation. This structured approach enables LLaVA-o1 to achieve
marked improvements in precision on reasoning-intensive tasks. To accomplish
this, we compile the LLaVA-o1-100k dataset, integrating samples from various
visual question answering sources and providing structured reasoning
annotations. Besides, we propose an inference-time stage-level beam search
method, which enables effective inference-time scaling. Remarkably, with only
100k training samples and a simple yet effective inference time scaling method,
LLaVA-o1 not only outperforms its base model by 8.9% on a wide range of
multimodal reasoning benchmarks, but also surpasses the performance of larger
and even closed-source models, such as Gemini-1.5-pro, GPT-4o-mini, and
Llama-3.2-90B-Vision-Instruct.Summary
AI-Generated Summary